为本地低功耗屏幕视觉提供OCR与界面检测,辅助识别受限屏幕内容
该工具声明为本地屏幕视觉/OCR 的 MCP 服务,无需密钥且未声明任何远程端点,整体未见明显数据外发红旗。主要注意点在于其本机代码执行与屏幕内容访问能力,以及来源虽开源可审计但社区采用和维护信号较弱。
材料明确写明无需密钥或环境变量,未见 API token、账号凭证或第三方授权流程,因此凭证泄露与滥用面较低。
未声明任何远程端点,描述中也未提及云端 OCR/推理服务;基于现有材料,更像完全本地处理,未见将用户数据外发到外部服务的事实依据。
系统客观检查项已标记 executes-code,说明其作为 MCP 工具会在本机运行代码/进程;结合其 NPU 加速、系统 OCR 与屏幕视觉功能,预计会调用本地系统能力,但材料未显示超出声明用途的异常高权限请求。
该工具的核心功能是对“不可访问屏幕”执行 OCR 和 UI 检测,这通常意味着需要读取屏幕画面或相关图像数据;这属于其功能所必需的数据访问,但可能接触敏感界面内容,应按最小化授权使用。
正面因素是其开源且采用 MIT 许可证,源码原则上可审计;但来源为 third_party_registry,仓库社区采用为 0 star、维护状态未知,且提供材料非常简略,因此供应链信号偏弱,建议先审查代码与依赖。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"npu-vision-fallback" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请通过 npu-vision-fallback 分析当前远程桌面画面,识别可点击按钮、输入框和主要文本,并按屏幕区域列出它们的位置与标签。
返回远程桌面中的界面元素清单,包含文本内容、控件类型和大致位置。
使用 npu-vision-fallback 对当前游戏画面执行 OCR,提取任务提示、菜单文字和状态信息,并整理成结构化摘要。
输出游戏界面中可识别的文字及其分类摘要,便于后续自动化处理。
调用 npu-vision-fallback 检测当前应用界面的关键控件与文本,判断登录页是否完整加载,并指出缺失或异常元素。
给出页面加载状态判断,以及关键控件是否存在的检测结果。
通过零样本目标检测识别并分析图片中的对象与视觉内容。