让 AI 在 Linux 桌面上截图、识别界面并执行鼠标键盘操作自动完成任务
该工具为开源 MCP 服务器,主要在本机 Linux Wayland 桌面上执行截图、OCR 与鼠标键盘控制,未声明需要密钥或远程端点。整体更像高权限本地自动化工具,主要风险点在本地控制与数据访问面,未见明确外发红旗,综合评为需留意。
材料明确标注无需密钥或环境变量,未见 API token、账号凭证或云端认证要求,因此直接的凭证泄露面较低。
材料与客观检查项均未声明远程端点;描述聚焦本地 Wayland 桌面截图、OCR、图标检测与输入控制,未见明确将用户数据发送到外部服务的事实依据。
系统已标记 executes-code,且工具功能包含鼠标/键盘控制,说明其具备在本机执行操作、驱动桌面交互的能力。这属于此类 MCP 工具的高权限本地自动化特性,应限制运行环境与可调用范围。
其声明具备截图、OCR 和桌面视觉解析能力,意味着可访问屏幕显示内容,并可能间接操作用户会话中的应用与数据。材料未说明会读写哪些具体文件,暂未见明显超出声明功能的过度授权证据,但屏幕内容本身可能包含敏感信息。
正面因素是存在开源仓库、源码原则上可审计;但来源为 third_party_registry,许可证未声明,社区采用为 0 star,维护状态未知,README 也缺失,导致可审计性与成熟度证据不足,需自行审查代码与依赖。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"screen-mcp" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
连接 screen-mcp 到我的 Wayland 桌面,打开目标应用,依次点击登录、进入设置页,截图记录每一步,并检查是否出现报错弹窗;最后输出测试结果摘要。
一份包含操作步骤、关键截图、异常识别结果和测试结论的界面测试报告。
使用 screen-mcp 识别屏幕上的浏览器和表格应用图标,打开它们,从网页复制指定数据并粘贴到表格对应列中;如果界面元素位置变化,请先截图并通过 OCR 与图标检测定位。
自动完成跨应用操作,并返回执行记录、识别到的界面元素和结果说明。
对当前 Linux 桌面截图,识别所有可见按钮、输入框和图标,提取页面文字,并说明用户下一步应点击哪里才能完成文件上传。
一份包含 OCR 文本、界面元素定位及下一步操作建议的可视化分析结果。
可在 macOS 上进行截屏、识别文字并自动点击,实现界面监控与自动化操作。