$ loading_

golden-dataset-mcp — askskill

$ ~/registry/mcp/nipunkhanderia-golden-dataset-mcp

MCP

golden-dataset-mcp

用于管理带版本的黄金数据集，并评估 RAG/LLM 流水线效果。

许可证

MIT License

来源

third_party_registry

更新于

2026-06-20

// 安全评估需留意

本机运行进程
开源可审计
有许可证· MIT License

正在进行安全审计…

凭证密钥
网络外发
代码执行
数据访问
来源供应链

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

"golden-dataset-mcp" 暂无可直接复制的安装信息，请查看页面文档或源码仓库。

// 用法示例

评估 RAG 检索答案质量

输入

请用 golden-dataset-mcp 创建一个带版本的黄金数据集，包含 50 条问答样本，并对我的 RAG 系统输出做语义评估；使用 TF-IDF 余弦相似度生成每条样本得分、整体平均分和低分样本列表。

预期产出

一份评估结果，包含数据集版本、逐条分数、总体指标以及需重点排查的低分样本。

对比两版提示词效果

输入

请基于同一黄金数据集，对比 Prompt V1 和 Prompt V2 在 RAG 流水线中的回答表现，输出两个版本的相似度评分、差异总结，以及提升最明显和下降最明显的样本。

预期产出

一份版本对比报告，帮助判断哪版提示词更稳定、更接近基准答案。

回归测试知识库更新

输入

知识库更新后，请使用现有黄金数据集执行一次回归评估，标记与上一版本相比得分下降的问答项，并汇总可能受影响的主题。

预期产出

一份回归测试摘要，显示更新是否导致回答质量下降及受影响范围。

// 文档

该资产暂无文档说明

可前往源码仓库查看用法与示例。

前往源码仓库 ↗

// 同源资产

MCP 工具

io.github.nipunkhanderia/golden-dataset-mcp

帮助团队管理版本化黄金数据集并开展 RAG 评估，无需 API Key。

—装→

// 功能相似

MCP 工具

GoldenMCP

帮助团队在 Web3 环境中标准化评测 AI/MCP，并完成结果存证与付费结算。

—装→

MCP 工具

GoldenAnalysis

汇总 Golden 套件的只读分析、指标查询与报告生成，辅助全局决策

—装→

golden-dataset-mcp

// 用法示例

// 文档

// 同源资产

io.github.nipunkhanderia/golden-dataset-mcp

// 功能相似

GoldenMCP

GoldenAnalysis

dataset-search-mcp

gemini-file-search-rag-mcp

Gemini MCP Tool

gemini-embedding-2-mcp-server