mcp-trafilatura-server

抓取文章正文

输入

请用 trafilatura 从这个网页链接提取正文内容，去掉导航、广告和页脚，并输出为 Markdown：https://example.com/article

预期产出

返回清洗后的文章正文，保留标题与段落结构，格式为 Markdown。

解析原始 HTML

输入

请从下面这段 HTML 中提取主要文本内容，忽略模板噪音，并输出纯文本结果：[粘贴 HTML 内容]

预期产出

返回去除样式与无关区块后的纯文本正文，适合进一步分析。

批量网页内容预处理

输入

请依次处理这组网页链接，提取每个页面的正文、标题和发布日期，并输出为结构化 JSON 数组：[链接1, 链接2, 链接3]

预期产出

返回包含多个页面提取结果的 JSON，便于后续数据分析或入库。

// 用法示例