跳到主要内容
版本:1.1.5

Multimodal

Spring AI 多模态能力覆盖图片生成、音频转换与视觉理解,让应用不仅能处理文本,还能生成图像、转写语音、理解图片内容。

文本到图片的生成模型抽象,支持参数化控制尺寸、风格和生成数量。

语音转文字与文字转语音,支持多种音频格式、语言和声音选择。

在对话中携带图片等媒体内容,让模型理解视觉信息并基于图片回答。