$ loading_
监控和管理多集群 Slurm GPU 作业,支持查看配额、执行命令与排查日志
复制安装指令,让 AI 自动完成配置 · 推荐新手
"clausius" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请检查所有 HPC 集群中的 Slurm GPU 作业状态,按用户、队列、节点和运行时长汇总,并标出失败或长时间排队的作业。
返回多集群作业状态概览,包含异常作业与排队风险提示。
请查询当前各集群的 GPU 资源分配情况,包括账户配额、已用资源、剩余容量,并指出哪些项目接近配额上限。
输出资源配额与使用情况报告,帮助判断是否还能提交新任务。
请定位作业 ID 相关的失败训练任务,提取标准输出和错误日志,总结可能原因,并给出下一步排查建议。
生成日志摘要、失败原因判断,以及可执行的排障建议。
帮助用户安全管理 SLURM 集群任务,支持传文件、提交作业、查日志与远程执行命令。