$ loading_
诊断 RAG 流水线回归成因,识别检索遗漏与幻觉等显著退化问题
复制安装指令,让 AI 自动完成配置 · 推荐新手
"RAG Regression Gate" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请分析我们新版 RAG 系统与上周基线的评测结果,判断哪些失败模式出现了显著回归,例如检索遗漏、上下文排序变差或回答幻觉,并用统计方法说明是否是真实退化而非随机波动。
一份回归诊断结果,列出显著退化的失败模式、显著性判断及可能影响范围。
基于当前候选版本和生产基线的 RAG 评测数据,给出是否应阻止发布的判断。如果总分下降不明显,但某些关键失败模式显著恶化,也请明确指出并说明原因。
发布门禁结论,包含通过或拦截建议,以及触发门禁的具体失败模式说明。
比较两套 RAG 检索策略在同一测试集上的表现,不仅看总体指标,还要识别哪一类失败模式在新策略下显著增加,并评估结论的统计可信度。
一份策略对比分析,说明总体差异、显著回归类别及统计可信度。
通过 MCP 为文档建立索引并进行关键词、向量检索的 RAG 工具