$ loading_
用于评估 AI 智能体输出质量,支持 CI 质检、回归对比与灰度放量决策。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"agent-eval-mcp" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请使用 agent-eval-mcp 对本次提交生成的 AI 智能体回答进行评估,对比主分支基线结果;如果准确率、格式合规率或任务完成率低于阈值,则返回失败并给出指标明细。
一份包含评分、与基线差异、是否通过 CI 门禁及失败原因的评估结果。
请用 agent-eval-mcp 对比 v1 与 v2 两个智能体版本在同一测试集上的输出表现,统计成功率、幻觉率和响应一致性,并总结哪个版本更适合上线。
一份回归对比报告,展示关键指标差异、优劣分析和上线建议。
请通过 agent-eval-mcp 评估当前灰度版本的智能体输出,结合线上抽样结果与历史稳定版本比较,判断是否满足扩大流量的质量门槛,并输出建议。
一份灰度评估结论,包含关键质量指标、风险提示和是否推进放量的建议。
自动评估网页应用的功能、性能与可用性,帮助快速发现问题