$ loading_
用于管理带版本的黄金数据集,并评估 RAG/LLM 流水线效果。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"golden-dataset-mcp" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请用 golden-dataset-mcp 创建一个带版本的黄金数据集,包含 50 条问答样本,并对我的 RAG 系统输出做语义评估;使用 TF-IDF 余弦相似度生成每条样本得分、整体平均分和低分样本列表。
一份评估结果,包含数据集版本、逐条分数、总体指标以及需重点排查的低分样本。
请基于同一黄金数据集,对比 Prompt V1 和 Prompt V2 在 RAG 流水线中的回答表现,输出两个版本的相似度评分、差异总结,以及提升最明显和下降最明显的样本。
一份版本对比报告,帮助判断哪版提示词更稳定、更接近基准答案。
知识库更新后,请使用现有黄金数据集执行一次回归评估,标记与上一版本相比得分下降的问答项,并汇总可能受影响的主题。
一份回归测试摘要,显示更新是否导致回答质量下降及受影响范围。
帮助用户跨平台检索开放数据集,并生成可一键运行的 Colab 入门代码。