$ ~/registry/mcp/eitan3-scrapy-mcp

MCP

scrapy-mcp

帮助用户礼貌抓取网页并提取链接、表格与结构化内容，支持受限异步爬取

许可证

MIT License

来源

third_party_registry

更新于

2026-06-17

// 安全评估需留意

本机运行进程
开源可审计
有许可证· MIT License

总评

该工具看起来是一个开源的本地 Scrapy 抓取型 MCP 服务，无需密钥，也未声明固定第三方 SaaS 端点。主要风险面来自其固有的本机代码执行与对目标网站发起网络请求；基于现有材料，整体更适合评为需留意而非高风险。

凭证密钥低风险

材料明确写明“无”密钥/环境变量，未见要求提供 API token、账号凭证或云服务密钥，因此凭证泄露与滥用面较低。

网络外发需留意

虽未声明固定远程端点，但该工具的核心功能是抓取网页、读取 sitemap 与 robots.txt，并执行有界异步爬取，因此会向用户指定的网站发起网络请求，存在常规的数据外发与目标站交互面。

代码执行需留意

系统检查项已标明 executes-code；作为基于 Scrapy 的 MCP 服务，它需要在本机运行抓取逻辑/进程。这属于此类工具的常规能力，材料中未见进一步申请异常系统权限的红旗。

数据访问需留意

从描述看，该工具会访问远程网页内容并提取链接、表格、CSS/XPath 结果，可能处理用户指定抓取目标返回的数据。材料未说明需要广泛本地文件权限，也未见与声明功能明显不符的数据访问要求。

来源供应链需留意

正面因素是其开源且采用 MIT 许可证，源码可审计；但来源为 third_party_registry，仓库社区采用度为 0 star，维护状态未知，README 缺失，降低了可验证性与成熟度，因此供应链侧建议保持留意。

安全建议

仅在隔离环境中运行，并限制其可访问的目标域名范围与网络出口策略。
安装前审阅仓库源码与依赖清单，重点检查 Scrapy 配置、下载中间件及任何自定义执行逻辑。
避免让其抓取含敏感信息的内网或受限站点，并记录抓取目标与输出去向。
优先固定版本或提交哈希进行部署，后续再根据维护情况决定是否持续使用。

审计模型: gpt-5.4 · 2026-06-17

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

"scrapy-mcp" 暂无可直接复制的安装信息，请查看页面文档或源码仓库。

// 用法示例

提取商品列表

输入

抓取这个电商分类页，使用 CSS 选择器提取每个商品的名称、价格、评分和详情页链接，并输出为结构化 JSON。

预期产出

返回包含商品字段的 JSON 数组，便于后续分析或入库。

读取站点地图与 robots

输入

读取目标网站的 sitemap.xml 和 robots.txt，总结可抓取区域、禁止抓取路径，并列出 sitemap 中的主要 URL 分类。

预期产出

输出抓取规则摘要和按类别整理的网址清单。

受限异步爬取博客

输入

从博客首页开始，限制最多抓取 50 个页面、深度不超过 2 层，提取每篇文章的标题、发布时间、作者和正文摘要。

预期产出

返回受限爬取结果及文章信息汇总，避免无限抓取。

// 文档

该资产暂无文档说明

可前往源码仓库查看用法与示例。

前往源码仓库 ↗

// 功能相似

MCP 工具

scrapling-mcp

提供网页抓取与批量采集能力，支持选择器提取、隐身模式和自动化处理。

—装→

MCP 工具

Selenium MCP Server

通过 Selenium 抓取网页、智能提取数据并处理翻页滚动与截图任务。

—装→

MCP 工具

MCP Web Scraper

抓取静态网页HTML内容并提取结构化信息，供AI分析与后续处理。

—装→

MCP 工具

crawl4ai-mcp-server

提供网页抓取与多页爬取能力，帮助 AI 自动采集并整理站点内容。

—装→

MCP 工具

★1

io.github.mysleekdesigns/crawlforge-mcp-server

帮助用户进行网页抓取、深度爬取与自动信息提取研究

—装→

MCP 工具

webx-mcp-server

用于抓取网页正文、链接与结构化内容，并支持网页搜索查询。

—装→

$ loading_

// 用法示例

提取商品列表

输入

抓取这个电商分类页，使用 CSS 选择器提取每个商品的名称、价格、评分和详情页链接，并输出为结构化 JSON。

预期产出

返回包含商品字段的 JSON 数组，便于后续分析或入库。

读取站点地图与 robots

输入

读取目标网站的 sitemap.xml 和 robots.txt，总结可抓取区域、禁止抓取路径，并列出 sitemap 中的主要 URL 分类。

预期产出

输出抓取规则摘要和按类别整理的网址清单。

受限异步爬取博客

输入

从博客首页开始，限制最多抓取 50 个页面、深度不超过 2 层，提取每篇文章的标题、发布时间、作者和正文摘要。

预期产出

返回受限爬取结果及文章信息汇总，避免无限抓取。