$ ~/registry/skill/affaan-m-docs-tr-skills-eval-harness

SKILL

eval-harness

为 Claude Code 会话建立基于 EDD 的正式评测框架与质量验证流程

星标

★ 209,790

来源

GitHub

更新于

2026-06-07

// 安全评估低风险

仅提示词，不执行代码
开源可审计
社区验证· 209.8k

正在进行安全审计…

凭证密钥
网络外发
代码执行
数据访问
来源供应链

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

请帮我安装 askskill 上的 "eval-harness" 技能：
1. 下载 https://raw.githubusercontent.com/affaan-m/ECC/main/docs/tr/skills/eval-harness/SKILL.md
2. 保存为 ~/.claude/skills/eval-harness/SKILL.md
3. 装好后重载技能，告诉我可以用了

// 下载

下载 SKILL.md机读安装清单 ↗

// 用法示例

设计代码评测标准

输入

请为一个使用 Claude Code 开发的 Python API 项目设计一套基于 Eval-driven development 的评测框架，包含功能正确性、边界条件、回归测试、评分标准，以及失败样例记录模板。

预期产出

一套结构化评测方案，含测试维度、评分规则、用例示例与记录模板。

评估 AI 生成代码质量

输入

下面是 Claude Code 生成的重构代码，请按 EDD 框架评估其可维护性、测试覆盖风险和潜在缺陷，并输出通过/失败结论与改进建议。

预期产出

包含质量结论、风险说明、扣分原因和后续修复建议的评测报告。

建立持续评测流程

输入

请为团队制定 Claude Code 会话的持续评测流程：定义每次提交前需要运行的评测项、结果记录方式、失败升级机制，以及如何根据评测结果迭代提示词和代码。

预期产出

一份可执行的持续评测流程文档，覆盖检查节点、责任分工和优化闭环。

// 文档

Eval Harness Skill

Claude Code oturumları için eval-driven development (EDD) ilkelerini uygulayan formal değerlendirme çerçevesi.

Ne Zaman Aktifleştirmeli

AI destekli iş akışları için eval-driven development (EDD) kurarken
Claude Code görev tamamlama için geçti/kaldı kriterleri tanımlarken
pass@k metrikleriyle agent güvenilirliğini ölçerken
Prompt veya agent değişiklikleri için regresyon test paketleri oluştururken
Model versiyonları arasında agent performansını benchmark ederken

Felsefe

Eval-Driven Development, eval'ları "AI geliştirmenin birim testleri" olarak ele alır:

İmplementasyondan ÖNCE beklenen davranışı tanımla
Geliştirme sırasında eval'ları sürekli çalıştır
Her değişiklikle regresyonları izle
Güvenilirlik ölçümü için pass@k metriklerini kullan

Eval Tipleri

Capability Eval'ları

Claude'un daha önce yapamadığı bir şeyi yapıp yapamadığını test et:

[CAPABILITY EVAL: feature-name]
Görev: Claude'un başarması gereken şeyin açıklaması
Başarı Kriterleri:
  - [ ] Kriter 1
  - [ ] Kriter 2
  - [ ] Kriter 3
Beklenen Çıktı: Beklenen sonucun açıklaması

Regression Eval'ları

Değişikliklerin mevcut fonksiyonaliteyi bozmadığından emin ol:

[REGRESSION EVAL: feature-name]
Baseline: SHA veya checkpoint adı
Testler:
  - existing-test-1: PASS/FAIL
  - existing-test-2: PASS/FAIL
  - existing-test-3: PASS/FAIL
Sonuç: X/Y geçti (önceden Y/Y)

Grader Tipleri

1. Code-Based Grader

Kod kullanarak deterministik kontroller:

# Dosyanın beklenen pattern içerip içermediğini kontrol et
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"

# Testlerin geçip geçmediğini kontrol et
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"

# Build'in başarılı olup olmadığını kontrol et
npm run build && echo "PASS" || echo "FAIL"

2. Model-Based Grader

Açık uçlu çıktıları değerlendirmek için Claude kullan:

[MODEL GRADER PROMPT]
Aşağıdaki kod değişikliğini değerlendir:
1. Belirtilen sorunu çözüyor mu?
2. İyi yapılandırılmış mı?
3. Edge case'ler işleniyor mu?
4. Hata işleme uygun mu?

Puan: 1-5 (1=kötü, 5=mükemmel)
Gerekçe: [açıklama]

3. Human Grader

Manuel inceleme için işaretle:

[HUMAN REVIEW REQUIRED]
Değişiklik: Neyin değiştiğinin açıklaması
Sebep: Neden insan incelemesi gerekli
Risk Seviyesi: DÜŞÜK/ORTA/YÜKSEK

Metrikler

pass@k

"k denemede en az bir başarı"

pass@1: İlk deneme başarı oranı
pass@3: 3 denemede başarı
Tipik hedef: pass@3 > %90

pass^k

"Tüm k denemeler başarılı"

Güvenilirlik için daha yüksek çıta
pass^3: Ardışık 3 başarı
Kritik yollar için kullan

Eval İş Akışı

1. Tanımla (Kodlamadan Önce)

## EVAL DEFINITION: feature-xyz

### Capability Eval'ları
1. Yeni kullanıcı hesabı oluşturabilir
2. Email formatını doğrulayabilir
3. Şifreyi güvenli şekilde hash'leyebilir

### Regression Eval'ları
1. Mevcut login hala çalışıyor
2. Oturum yönetimi değişmedi
3. Logout akışı sağlam

### Başarı Metrikleri
- capability eval'lar için pass@3 > %90
- regression eval'lar için pass^3 = %100

2. Uygula

Tanımlanan eval'ları geçmek için kod yaz.

3. Değerlendir

# Capability eval'ları çalıştır
[Her capability eval'ı çalıştır, PASS/FAIL kaydet]

# Regression eval'ları çalıştır
npm test -- --testPathPattern="existing"

# Rapor oluştur

4. Rapor

EVAL REPORT: feature-xyz
========================

Capability Eval'ları:
  create-user:     PASS (pass@1)
  validate-email:  PASS (pass@2)
  hash-password:   PASS (pass@1)
  Genel:           3/3 geçti

Regression Eval'ları:
  login-flow:      PASS
  session-mgmt:    PASS
  logout-flow:     PASS
  Genel:           3/3 geçti

Metrikler:
  pass@1: %67 (2/3)
  pass@3: %100 (3/3)

Durum: İNCELEMEYE HAZIR