加速大规模数据导入、回填与同步流程,同时保障结果正确一致。
复制安装指令,让 AI 自动完成配置 · 推荐新手
请帮我安装 askskill 上的 "data-throughput-accelerator" 技能: 1. 下载 https://raw.githubusercontent.com/affaan-m/ECC/main/skills/data-throughput-accelerator/SKILL.md 2. 保存为 ~/.claude/skills/data-throughput-accelerator/SKILL.md 3. 装好后重载技能,告诉我可以用了
请为一个包含 50 亿条记录的数据仓库回填任务设计加速方案,目标是在保证幂等性、校验完整性和失败可恢复的前提下,缩短执行时间。请给出分片策略、并发控制、重试机制、校验步骤和监控指标。
一套可执行的回填加速方案,包含分批并发设计、正确性保障措施与监控建议。
分析当前 ETL 导入流程的性能瓶颈,并提出优化方案,用于提升大批量 CSV 到数据仓库的加载速度。请重点说明批量写入、压缩、分区、并行处理和去重校验如何设计。
一份 ETL 性能优化建议,说明如何提升吞吐量并保持数据质量。
为跨库表同步任务制定提速方案:源表每天新增 2 亿行,需要更快完成增量同步,同时避免漏数、重复和顺序错乱。请输出同步架构、检查点机制、异常恢复和一致性校验方案。
一套高吞吐表同步方案,覆盖增量同步设计、容错机制与一致性验证。
Use this skill when the bottleneck is moving, transforming, or saving lots of data. The goal is not just speed. The goal is faster correct data landing in the right place with proof.
Separate these before optimizing:
A pipeline can be "fast" and still appear behind if new data arrives faster than the final catch-up window.
Use a hard accounting block:
Data throughput result:
- Source files discovered: 294
- Files processed this run: 294
- Raw rows added: 9,683,598
- Derived rows added: 8,917,585
- Remaining tail: 24 files at readback time
- Runtime: 38.7s
- Correctness gate: manifest counts and table max timestamps match
为 Quarkus 项目执行发布前验证闭环,涵盖构建、测试、扫描与差异审查。
通过命令行分析 Fabric 数据仓库性能瓶颈并给出优化建议。