$ loading_
帮助团队按草稿、评审、修订、提交流程创建可验证的评测记录。
复制安装指令,让 AI 自动完成配置 · 推荐新手
请帮我安装 askskill 上的 "io.github.cyanheads/evals-mcp-server" MCP 服务: 执行:claude mcp add 'io-github-cyanheads-evals-mcp-server' -- node @cyanheads/evals-mcp-server
请为这次大模型回答质量测试生成一份评测记录草稿,包含评测目标、样本说明、评分标准、指定评审人和待提交项。
一份结构化评测草稿,包含可进入评审流程的字段与责任人信息。
根据以下评审意见修订这份评测记录:补充失败案例、统一评分口径、明确每位 grader 的职责,并输出修订说明。
更新后的评测记录与修订说明,清楚标注改动内容和原因。
请检查这份评测记录是否满足提交要求:是否完成草稿、评审、修订步骤,是否包含指定评审人结论,并列出缺失项。
一份提交前检查结果,说明是否可提交并列出缺漏与整改建议。
用于评估 AI 智能体输出质量,支持 CI 质检、回归对比与灰度放量决策。