Kubeflow MCP Server

用自然语言管理 Kubeflow 分布式训练、微调大模型并监控 Kubernetes 任务。

来源

third_party_registry

更新于

2026-07-01

// 安全评估需留意

正在进行安全审计…

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

"Kubeflow MCP Server" 暂无可直接复制的安装信息，请查看页面文档或源码仓库。

// 用法示例

创建分布式训练任务

输入

请为 Kubeflow 创建一个 PyTorch 分布式训练任务，使用 4 个 worker、1 个 master，训练镜像为 myrepo/bert-train:latest，数据挂载到 /data，训练脚本为 train.py，并返回可直接应用的配置摘要。

预期产出

生成训练任务配置要点或对应资源定义摘要，包含角色、副本数、镜像、挂载与启动命令。

发起大模型微调

输入

帮我在 Kubeflow 上发起一个大模型微调任务：基座模型为 Llama 3 8B，使用 LoRA，训练数据在 s3://ml-data/instruction.jsonl，设置 3 个 epoch、batch size 8，并说明需要的资源配置。

预期产出

返回微调任务计划，包含训练参数、数据位置、推荐资源、任务结构与执行说明。

监控训练状态并排查问题

输入

检查 Kubeflow 中最近运行的训练任务状态，列出正在运行、失败和已完成的任务，并指出失败任务可能的原因与下一步排查建议。

预期产出

输出任务状态汇总、失败原因分析，以及可执行的排查与修复建议。

该资产暂无文档说明

可前往源码仓库查看用法与示例。

让 AI 直接操作 Kubernetes 与 Helm，完成集群管理、排障与发布任务。

让 AI 在安全容器环境中执行 Kubernetes 与云原生运维命令