$ loading_
用于沙箱执行代码并结合大模型评分,评估程序质量与结果表现。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"mcp-eval-harness" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请用 mcp-eval-harness 在沙箱中执行这段 Python 代码,运行给定测试用例,并结合正确性、可读性和鲁棒性给出 1-10 分评分与改进建议。
返回测试执行结果、错误信息、质量评分及结构化改进建议。
请用 mcp-eval-harness 对这三个函数实现分别执行相同输入集,从性能、正确率和异常处理三方面打分,并输出排名与原因。
给出每个实现的执行表现、评分明细、综合排名和推荐方案。
请用 mcp-eval-harness 对新旧版本脚本执行回归测试,比较输出差异,并用大模型总结是否存在质量退化风险。
输出回归测试结果、差异摘要,以及是否退化的判断说明。
用于提示词与 RAG 流程评测,支持在 MCP 客户端发起并托管执行评估任务