$ loading_
实时监控并调优神经网络训练过程,识别异常并安全干预。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"Cortex" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
连接 Cortex,实时监控当前模型训练任务的损失、梯度范数、学习率和 GPU 利用率;如果检测到损失爆炸、梯度异常或显存抖动,请立即告警并给出可能原因。
返回实时训练状态摘要、异常告警以及可能原因分析。
使用 Cortex 监控训练过程;当验证集损失连续 3 个评估周期恶化时,在安全范围内将学习率下调 20%,并记录每次干预的触发条件、修改内容和效果。
输出干预记录、调整前后指标对比,以及是否改善训练稳定性的结论。
请通过 Cortex 分析最近 24 小时的训练运行记录,汇总吞吐量、收敛趋势、异常事件和人工/自动干预情况,并生成一份适合研究团队复盘的健康检查报告。
生成结构化训练健康报告,包含关键指标、风险点和优化建议。
接收并分析 homelab Syslog 日志,辅助排障、监控与异常发现