$ loading_
通过自然语言调用 VerifyAX,完成智能体评测与工作流管理。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"VerifyAX MCP" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请帮我在 VerifyAX 中创建一个用于评测客服智能体的任务,包含准确率、响应时延和安全性三个指标。
返回可执行的评测任务配置或创建结果。
请读取 VerifyAX 里的最近一次评测结果,并总结模型的主要失败模式和改进建议。
输出评测结论、失败模式摘要和优化建议。
请用 VerifyAX 对比 v1、v2、v3 三个智能体版本的评测表现,并给出最佳版本推荐。
输出版本对比表和推荐结论。
帮助用户编译、插桩并分析数值程序中的浮点误差与稳定性问题。