全部 MCP Skills 创作者

$ loading_

$ askskill.ai — 按职业发现 AI 技能与 MCP 工具

llms.txt内容来自社区，遵循各自 License

vision-mcp — askskill

$ ~/registry/mcp/cpramod-vision-mcp

MCP

vision-mcp

使用视觉模型分析图片内容，支持识别文字、物体、场景与差异对比。

来源

third_party_registry

更新于

2026-06-22

// 安全评估需留意

本机运行进程
开源可审计

正在进行安全审计…

凭证密钥
网络外发
代码执行
数据访问
来源供应链

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

"vision-mcp" 暂无可直接复制的安装信息，请查看页面文档或源码仓库。

// 用法示例

提取图片中的文字

输入

请分析这张图片，提取其中所有可见文字，并按段落整理输出；如果有表格，请尽量保留原有结构。

预期产出

返回整理后的 OCR 文本内容，必要时包含表格或分段结构。

识别场景与物体

输入

请描述这张图片的场景，列出主要物体、它们的位置关系，以及可能的活动或用途。

预期产出

返回场景描述、关键物体清单及位置关系说明。

对比两张图片差异

输入

请对比这两张图片，说明它们在文字、物体、布局、颜色或细节上的主要差异，并按重要性排序。

预期产出

返回结构化的差异清单，帮助快速定位两图变化点。

// 文档

该资产暂无文档说明

可前往源码仓库查看用法与示例。

前往源码仓库 ↗

// 来源

third_party_registry

开源

cpramod/vision-mcp ↗主页 ↗

// 关键信息

类型: MCP

兼容

Claude CodeCodexCursor

按职业

研究员开发者设计师

按能力

// 功能相似

mcp-vision

通过零样本目标检测识别并分析图片中的对象与视觉内容。

Vison-MCP

将截图和图片转成代码、文本与故障诊断结果，提升视觉理解自动化。

/r/cpramod-vision-mcp ↗

MCP 工具

vision-mcp

使用本地 Ollama 模型进行截图分析、OCR 识别与视觉监控。

—装→

llm-vision-mcp

让大模型读取图片路径、链接或Base64并生成图像描述。

read-image-mcp

让无视觉能力的智能体读取图片内容、OCR文字并提取结构化数据。

Vision MCP Server

让 AI 通过视觉模型分析图片、提取文字、比对图像并理解视频内容。