$ loading_
用自然语言管理 Kubeflow 分布式训练、微调大模型并监控 Kubernetes 任务。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"Kubeflow MCP Server" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请为 Kubeflow 创建一个 PyTorch 分布式训练任务,使用 4 个 worker、1 个 master,训练镜像为 myrepo/bert-train:latest,数据挂载到 /data,训练脚本为 train.py,并返回可直接应用的配置摘要。
生成训练任务配置要点或对应资源定义摘要,包含角色、副本数、镜像、挂载与启动命令。
帮我在 Kubeflow 上发起一个大模型微调任务:基座模型为 Llama 3 8B,使用 LoRA,训练数据在 s3://ml-data/instruction.jsonl,设置 3 个 epoch、batch size 8,并说明需要的资源配置。
返回微调任务计划,包含训练参数、数据位置、推荐资源、任务结构与执行说明。
检查 Kubeflow 中最近运行的训练任务状态,列出正在运行、失败和已完成的任务,并指出失败任务可能的原因与下一步排查建议。
输出任务状态汇总、失败原因分析,以及可执行的排查与修复建议。
通过安全容器运行 Kubernetes 命令,协助集群管理、部署排障与运维操作。