Multimodal
Spring AI 多模态能力覆盖图片生成、音频转换与视觉理解,让应用不仅能处理文本,还能生成图像、转写语音、理解图片内容。
文本到图片的生成模型抽象,支持参数化控制尺寸、风格和生成数量。
语音转文字与文字转语音,支持多种音频格式、语言和声音选择。
在对话中携带图片等媒体内容,让模型理解视觉信息并基于图片回答。
Spring AI 多模态能力覆盖图片生成、音频转换与视觉理解,让应用不仅能处理文本,还能生成图像、转写语音、理解图片内容。
文本到图片的生成模型抽象,支持参数化控制尺寸、风格和生成数量。
语音转文字与文字转语音,支持多种音频格式、语言和声音选择。
在对话中携带图片等媒体内容,让模型理解视觉信息并基于图片回答。