mcp-eval-harness

用于沙箱执行代码并结合大模型评分，评估程序质量与结果表现。

来源

third_party_registry

更新于

2026-06-22

// 安全评估需留意

正在进行安全审计…

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

"mcp-eval-harness" 暂无可直接复制的安装信息，请查看页面文档或源码仓库。

// 用法示例

评测代码生成结果

输入

请用 mcp-eval-harness 在沙箱中执行这段 Python 代码，运行给定测试用例，并结合正确性、可读性和鲁棒性给出 1-10 分评分与改进建议。

预期产出

返回测试执行结果、错误信息、质量评分及结构化改进建议。

比较多个方案实现

输入

请用 mcp-eval-harness 对这三个函数实现分别执行相同输入集，从性能、正确率和异常处理三方面打分，并输出排名与原因。

预期产出

给出每个实现的执行表现、评分明细、综合排名和推荐方案。

自动化回归评估

输入

请用 mcp-eval-harness 对新旧版本脚本执行回归测试，比较输出差异，并用大模型总结是否存在质量退化风险。

预期产出

输出回归测试结果、差异摘要，以及是否退化的判断说明。

该资产暂无文档说明

可前往源码仓库查看用法与示例。

在沙箱 Docker 环境中执行 Python 代码并测试 API 交互流程。

用于测试和调试 MCP 工具及交互流程的沙箱服务器。