为 Claude Code 会话建立基于 EDD 的正式评测框架与质量验证流程
复制安装指令,让 AI 自动完成配置 · 推荐新手
请帮我安装 askskill 上的 "eval-harness" 技能: 1. 下载 https://raw.githubusercontent.com/affaan-m/ECC/main/docs/tr/skills/eval-harness/SKILL.md 2. 保存为 ~/.claude/skills/eval-harness/SKILL.md 3. 装好后重载技能,告诉我可以用了
请为一个使用 Claude Code 开发的 Python API 项目设计一套基于 Eval-driven development 的评测框架,包含功能正确性、边界条件、回归测试、评分标准,以及失败样例记录模板。
一套结构化评测方案,含测试维度、评分规则、用例示例与记录模板。
下面是 Claude Code 生成的重构代码,请按 EDD 框架评估其可维护性、测试覆盖风险和潜在缺陷,并输出通过/失败结论与改进建议。
包含质量结论、风险说明、扣分原因和后续修复建议的评测报告。
请为团队制定 Claude Code 会话的持续评测流程:定义每次提交前需要运行的评测项、结果记录方式、失败升级机制,以及如何根据评测结果迭代提示词和代码。
一份可执行的持续评测流程文档,覆盖检查节点、责任分工和优化闭环。
Claude Code oturumları için eval-driven development (EDD) ilkelerini uygulayan formal değerlendirme çerçevesi.
Eval-Driven Development, eval'ları "AI geliştirmenin birim testleri" olarak ele alır:
Claude'un daha önce yapamadığı bir şeyi yapıp yapamadığını test et:
[CAPABILITY EVAL: feature-name]
Görev: Claude'un başarması gereken şeyin açıklaması
Başarı Kriterleri:
- [ ] Kriter 1
- [ ] Kriter 2
- [ ] Kriter 3
Beklenen Çıktı: Beklenen sonucun açıklaması
Değişikliklerin mevcut fonksiyonaliteyi bozmadığından emin ol:
[REGRESSION EVAL: feature-name]
Baseline: SHA veya checkpoint adı
Testler:
- existing-test-1: PASS/FAIL
- existing-test-2: PASS/FAIL
- existing-test-3: PASS/FAIL
Sonuç: X/Y geçti (önceden Y/Y)
Kod kullanarak deterministik kontroller:
# Dosyanın beklenen pattern içerip içermediğini kontrol et
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"
# Testlerin geçip geçmediğini kontrol et
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"
# Build'in başarılı olup olmadığını kontrol et
npm run build && echo "PASS" || echo "FAIL"
Açık uçlu çıktıları değerlendirmek için Claude kullan:
[MODEL GRADER PROMPT]
Aşağıdaki kod değişikliğini değerlendir:
1. Belirtilen sorunu çözüyor mu?
2. İyi yapılandırılmış mı?
3. Edge case'ler işleniyor mu?
4. Hata işleme uygun mu?
Puan: 1-5 (1=kötü, 5=mükemmel)
Gerekçe: [açıklama]
Manuel inceleme için işaretle:
[HUMAN REVIEW REQUIRED]
Değişiklik: Neyin değiştiğinin açıklaması
Sebep: Neden insan incelemesi gerekli
Risk Seviyesi: DÜŞÜK/ORTA/YÜKSEK
"k denemede en az bir başarı"
"Tüm k denemeler başarılı"
## EVAL DEFINITION: feature-xyz
### Capability Eval'ları
1. Yeni kullanıcı hesabı oluşturabilir
2. Email formatını doğrulayabilir
3. Şifreyi güvenli şekilde hash'leyebilir
### Regression Eval'ları
1. Mevcut login hala çalışıyor
2. Oturum yönetimi değişmedi
3. Logout akışı sağlam
### Başarı Metrikleri
- capability eval'lar için pass@3 > %90
- regression eval'lar için pass^3 = %100
Tanımlanan eval'ları geçmek için kod yaz.
# Capability eval'ları çalıştır
[Her capability eval'ı çalıştır, PASS/FAIL kaydet]
# Regression eval'ları çalıştır
npm test -- --testPathPattern="existing"
# Rapor oluştur
EVAL REPORT: feature-xyz
========================
Capability Eval'ları:
create-user: PASS (pass@1)
validate-email: PASS (pass@2)
hash-password: PASS (pass@1)
Genel: 3/3 geçti
Regression Eval'ları:
login-flow: PASS
session-mgmt: PASS
logout-flow: PASS
Genel: 3/3 geçti
Metrikler:
pass@1: %67 (2/3)
pass@3: %100 (3/3)
Durum: İNCELEMEYE HAZIR
/eval define feature-name
.claude/evals/feature-name.md konumunda eval tanım dosyası oluşturur
…
帮助开发者为代码代理配置性能优化、安全防护与研究优先工作流。
提供数据库迁移、回滚与零停机发布的最佳实践指导,适用于多种 ORM 与 SQL 数据库。
通过双评审智能体对结果进行对抗式校验,提升输出发布前的可靠性
帮助你掌握地道 Rust 模式、所有权与并发实践,编写安全高性能应用。
基于 C++ Core Guidelines 编写、审查并重构更安全现代的 C++ 代码。
为 Claude Code 会话提供系统化校验流程,帮助检查结果正确性与质量。
为 Claude Code 会话建立正式评估流程,支持评测驱动开发与质量验证
为 Claude Code 会话提供正式评测框架,支持评估驱动开发流程。
为 Claude Code 会话提供正式评估框架,支持评估驱动开发与质量验证。
为 Claude Code 会话提供全面校验流程,提升代码与结果可靠性。
为 Claude Code 会话提供自动化校验流程,帮助检查代码、输出与执行结果。
交互式安装并配置 Claude Code 技能与规则,支持用户级或项目级部署优化。