$ loading_

multimodal-agents-course — askskill

$ ~/registry/mcp/the-ai-merge-multimodal-agents-course

MCP

multimodal-agents-course

调用具备视觉与听觉能力的多模态 AI 智能体，处理图像、语音与综合交互任务。

星标

★ 565

许可证

Apache-2.0

来源

GitHub

更新于

2026-06-28

// 安全评估需留意

本机运行进程
开源可审计
有许可证· Apache-2.0
社区验证· 565

正在进行安全审计…

凭证密钥
网络外发
代码执行
数据访问
来源供应链

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

"multimodal-agents-course" 暂无可直接复制的安装信息，请查看页面文档或源码仓库。

// 用法示例

解析截图并回答问题

输入

请查看这张应用界面截图，识别主要功能区、按钮和提示信息，并总结用户下一步可以执行的操作。

预期产出

返回对截图内容的结构化说明，以及基于视觉信息的操作建议。

转写并总结语音内容

输入

请收听这段会议录音，转写关键内容，提炼待办事项，并按优先级列出负责人和截止时间。

预期产出

输出会议转写摘要、待办清单以及清晰的任务分配结果。

构建多模态智能体原型

输入

请帮我设计一个具备图像识别和语音输入能力的 AI 助手原型，说明所需模块、交互流程，并给出基础实现思路。

预期产出

给出多模态智能体的架构建议、流程设计和可落地的开发方案。

// 文档

该资产暂无文档说明

可前往源码仓库查看用法与示例。

前往源码仓库 ↗

// 功能相似

MCP 工具

rosclaw-vision-mcp

让 AI 通过英特尔深度相机感知并理解真实物理环境。

—装→

MCP 工具

multimodal-mcp

为 MCP 客户端自动将图片转成文字描述，让仅文本模型也能处理图像问题。

—装→

multimodal-agents-course

// 用法示例

// 文档

// 功能相似

rosclaw-vision-mcp

multimodal-mcp

io.github.sena-labs/replicate-mcp-server

mcp-vision

agent-eyes

mcp-multi-model