$ loading_
调用具备视觉与听觉能力的多模态 AI 智能体,处理图像、语音与综合交互任务。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"multimodal-agents-course" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请查看这张应用界面截图,识别主要功能区、按钮和提示信息,并总结用户下一步可以执行的操作。
返回对截图内容的结构化说明,以及基于视觉信息的操作建议。
请收听这段会议录音,转写关键内容,提炼待办事项,并按优先级列出负责人和截止时间。
输出会议转写摘要、待办清单以及清晰的任务分配结果。
请帮我设计一个具备图像识别和语音输入能力的 AI 助手原型,说明所需模块、交互流程,并给出基础实现思路。
给出多模态智能体的架构建议、流程设计和可落地的开发方案。
通过统一接口调用多模态生成与分析模型,完成图像、视频、音频及训练任务