agent-eval-mcp

用于评估 AI 智能体输出质量，支持 CI 质检、回归对比与灰度放量决策。

许可证

MIT License

来源

third_party_registry

更新于

2026-06-29

// 安全评估需留意

本机运行进程
开源可审计
有许可证· MIT License

正在进行安全审计…

凭证密钥
网络外发
代码执行
数据访问
来源供应链

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

"agent-eval-mcp" 暂无可直接复制的安装信息，请查看页面文档或源码仓库。

// 用法示例

在 CI 中拦截质量下降

输入

请使用 agent-eval-mcp 对本次提交生成的 AI 智能体回答进行评估，对比主分支基线结果；如果准确率、格式合规率或任务完成率低于阈值，则返回失败并给出指标明细。

预期产出

一份包含评分、与基线差异、是否通过 CI 门禁及失败原因的评估结果。

比较新旧版本智能体表现

输入

请用 agent-eval-mcp 对比 v1 与 v2 两个智能体版本在同一测试集上的输出表现，统计成功率、幻觉率和响应一致性，并总结哪个版本更适合上线。

预期产出

一份回归对比报告，展示关键指标差异、优劣分析和上线建议。

评估灰度发布是否扩大流量

输入

请通过 agent-eval-mcp 评估当前灰度版本的智能体输出，结合线上抽样结果与历史稳定版本比较，判断是否满足扩大流量的质量门槛，并输出建议。

预期产出

一份灰度评估结论，包含关键质量指标、风险提示和是否推进放量的建议。

// 文档

该资产暂无文档说明

可前往源码仓库查看用法与示例。

前往源码仓库 ↗

// 功能相似

MCP 工具

★7

io.github.iris-eval/mcp-server

为 MCP 智能体输出按质量、安全与成本进行标准化评分评估。

—装→

MCP 工具

Eval_MCP

用于提示词与 RAG 流程评测，支持在 MCP 客户端发起并托管执行评估任务

—装→

agent-eval-mcp

// 用法示例

// 文档

// 功能相似

io.github.iris-eval/mcp-server

Eval_MCP

web-eval-agent

agentloop

MCP E-Commerce Agent

mcp-agent-server