版本：1.1.2

Multimodal

Spring AI 多模态能力覆盖图片生成、音频转换与视觉理解，让应用不仅能处理文本，还能生成图像、转写语音、理解图片内容。

文本到图片的生成模型抽象，支持参数化控制尺寸、风格和生成数量。

语音转文字与文字转语音，支持多种音频格式、语言和声音选择。

在对话中携带图片等媒体内容，让模型理解视觉信息并基于图片回答。