$ loading_
对大模型训练数据进行多维质检、异常检测与自动修复,提高数据可用性。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"DataCheck" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请对这批用于大模型微调的 JSONL 数据做多维质量检查,识别缺失字段、重复样本、格式错误、标签异常和长度分布异常,并给出问题汇总。
返回数据质量报告,列出各类问题数量、异常样本示例及总体风险概览。
基于检测结果,自动修复可处理的数据问题,包括统一字段格式、删除重复记录、补全默认值,并输出修复后的数据及变更日志。
生成修复后的数据文件,并附带详细修复记录与无法自动处理的问题清单。
分析这批训练数据的统计分布,找出文本长度、类别比例、数值字段和嵌入特征中的异常样本,并按严重程度排序。
输出异常样本列表、异常原因说明以及建议的清洗或复核动作。
帮助排查网络基础设施与在线服务健康状态,判断问题源于本地还是外部。