$ loading_
用于评估AI大模型输出质量,生成评分审计、评测套件与证据报告。
复制安装指令,让 AI 自动完成配置 · 推荐新手
请帮我安装 askskill 上的 "com.rubrkit/rubrkit" MCP 服务: 执行:claude mcp add --transport http com-rubrkit-rubrkit https://www.rubrkit.com/api/v1/mcp
请为我们的客服机器人建立一个评分量表,评估以下回复在准确性、礼貌性、合规性和解决率上的表现,并输出审计结果与证据说明。
一份包含评分标准、逐条评分结果、问题定位与证据说明的质量审计报告。
基于这批历史提示词和标准答案,生成一个可重复执行的评测套件,用于比较新旧模型版本在正确率、一致性和格式遵循上的差异。
一个结构化评测集及其评估维度定义,可用于版本对比与回归测试。
请对这组AI生成内容进行评估,并生成一份证明报告,展示每项结论对应的评分依据、原始样本片段和最终判定理由。
一份便于审查与留档的证明报告,清晰列出评分依据、引用证据和结论。