Astro-LLM

比较多个模型表现

输入

请列出可用模型，并基于今日能力基准测试结果，比较它们在推理、稳定性和价值对齐方面的表现，输出排名与简要点评。

预期产出

返回模型列表、各项评分、综合排名及优缺点简评。

分析价值观匹配度

输入

我的团队重视安全、透明和用户自主性。请用价值匹配工具分析哪些模型最符合这些价值观，并说明原因。

预期产出

给出价值匹配结果、推荐模型及每个模型的匹配依据。

评估伦理两难判断

输入

请使用 judge dilemmas 工具，测试目标模型在 5 个伦理两难场景中的判断一致性，并总结潜在风险。

预期产出

输出各场景判断结果、一致性分析以及风险提示。

// 用法示例