io.github.cyanheads/evals-mcp-server

帮助团队按草稿、评审、修订、提交流程创建可验证的评测记录。

来源

官方 Registry

更新于

2026-06-28

// 安全评估需留意

需要密钥· EVALS_DATA_DIR, EVALS_REQUIRE_CONFIRMATION, EVALS_DEFAULT_LICENSE, EVALS_CAPTURE_DIR, MCP_LOG_LEVEL
本机运行进程
官方 / 精选来源
开源可审计
社区验证

正在进行安全审计…

凭证密钥
网络外发
代码执行
数据访问
来源供应链

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

请帮我安装 askskill 上的 "io.github.cyanheads/evals-mcp-server" MCP 服务：
执行：claude mcp add 'io-github-cyanheads-evals-mcp-server' -- node @cyanheads/evals-mcp-server

// 用法示例

编写模型评测记录

输入

请为这次大模型回答质量测试生成一份评测记录草稿，包含评测目标、样本说明、评分标准、指定评审人和待提交项。

预期产出

一份结构化评测草稿，包含可进入评审流程的字段与责任人信息。

根据评审意见修订

输入

根据以下评审意见修订这份评测记录：补充失败案例、统一评分口径、明确每位 grader 的职责，并输出修订说明。

预期产出

更新后的评测记录与修订说明，清楚标注改动内容和原因。

提交前完整性检查

输入

请检查这份评测记录是否满足提交要求：是否完成草稿、评审、修订步骤，是否包含指定评审人结论，并列出缺失项。

预期产出

一份提交前检查结果，说明是否可提交并列出缺漏与整改建议。

// 文档

该资产暂无文档说明

可前往源码仓库查看用法与示例。

前往源码仓库 ↗

// 功能相似

MCP 工具

★7

io.github.iris-eval/mcp-server

为 MCP 智能体输出按质量、安全与成本进行标准化评分评估。

—装→

MCP 工具

Eval_MCP

用于提示词与 RAG 流程评测，支持在 MCP 客户端发起并托管执行评估任务

—装→

io.github.cyanheads/evals-mcp-server

// 用法示例

// 文档

// 功能相似

io.github.iris-eval/mcp-server

Eval_MCP

agent-eval-mcp

io.github.cyanheads/pentest-mcp-server

io.github.w1ckedxt/cynicalsally

minecraft-developing-mcp