$ ~/registry/skill/affaan-m-docs-ja-jp-skills-eval-harness

SKILL

eval-harness

为 Claude Code 会话提供正式评测框架，支持评估驱动开发流程。

星标

★ 209,790

来源

GitHub

更新于

2026-06-07

// 安全评估低风险

仅提示词，不执行代码
开源可审计
社区验证· 209.8k

正在进行安全审计…

凭证密钥
网络外发
代码执行
数据访问
来源供应链

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

请帮我安装 askskill 上的 "eval-harness" 技能：
1. 下载 https://raw.githubusercontent.com/affaan-m/ECC/main/docs/ja-JP/skills/eval-harness/SKILL.md
2. 保存为 ~/.claude/skills/eval-harness/SKILL.md
3. 装好后重载技能，告诉我可以用了

// 下载

下载 SKILL.md机读安装清单 ↗

// 用法示例

评估代码生成效果

输入

请用 eval-harness 为这个 Claude Code 会话建立正式评测：目标是实现一个 Python CLI，测试正确性、边界情况和失败样例，并按 EDD 原则输出评测用例、评分标准与结果汇总。

预期产出

一套结构化评测方案，包含测试用例、评分标准、执行结果与改进建议。

回归测试开发流程

输入

请基于现有需求和历史结果，用 eval-harness 设计一个回归评测流程，验证 Claude Code 在修复 bug 后是否引入新问题，并给出通过/失败判断依据。

预期产出

可重复执行的回归评测流程，明确展示修复效果及潜在回退风险。

制定EDD评测基线

输入

请使用 eval-harness 为新项目制定 EDD 评测基线，先定义成功标准，再设计最小可行任务的评估集，最后说明如何在每次 Claude Code 会话后更新基线。

预期产出

一份适合持续迭代的评测基线文档，包含标准、样例任务和更新机制。

// 文档

Eval Harnessスキル

Claude Codeセッションの正式な評価フレームワークで、評価駆動開発（EDD）の原則を実装します。

哲学

評価駆動開発は評価を「AI開発のユニットテスト」として扱います：

実装前に期待される動作を定義
開発中に継続的に評価を実行
変更ごとにリグレッションを追跡
信頼性測定にpass@kメトリクスを使用

評価タイプ

能力評価

Claudeが以前できなかったことができるようになったかをテスト：

[CAPABILITY EVAL: feature-name]
タスク: Claudeが達成すべきことの説明
成功基準:
  - [ ] 基準1
  - [ ] 基準2
  - [ ] 基準3
期待される出力: 期待される結果の説明

リグレッション評価

変更が既存の機能を破壊しないことを確認：

[REGRESSION EVAL: feature-name]
ベースライン: SHAまたはチェックポイント名
テスト:
  - existing-test-1: PASS/FAIL
  - existing-test-2: PASS/FAIL
  - existing-test-3: PASS/FAIL
結果: X/Y 成功（以前は Y/Y）

評価者タイプ

1. コードベース評価者

コードを使用した決定論的チェック：

# ファイルに期待されるパターンが含まれているかチェック
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"

# テストが成功するかチェック
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"

# ビルドが成功するかチェック
npm run build && echo "PASS" || echo "FAIL"

2. モデルベース評価者

Claudeを使用して自由形式の出力を評価：

[MODEL GRADER PROMPT]
次のコード変更を評価してください：
1. 記述された問題を解決していますか？
2. 構造化されていますか？
3. エッジケースは処理されていますか？
4. エラー処理は適切ですか？

スコア: 1-5（1=不良、5=優秀）
理由: [説明]

3. 人間評価者

手動レビューのためにフラグを立てる：

[HUMAN REVIEW REQUIRED]
変更内容: 何が変更されたかの説明
理由: 人間のレビューが必要な理由
リスクレベル: LOW/MEDIUM/HIGH

メトリクス

pass@k

「k回の試行で少なくとも1回成功」

pass@1: 最初の試行での成功率
pass@3: 3回以内の成功
一般的な目標: pass@3 > 90%

pass^k

「k回の試行すべてが成功」

より高い信頼性の基準
pass^3: 3回連続成功
クリティカルパスに使用

評価ワークフロー

1. 定義（コーディング前）

## 評価定義: feature-xyz

### 能力評価
1. 新しいユーザーアカウントを作成できる
2. メール形式を検証できる
3. パスワードを安全にハッシュ化できる

### リグレッション評価
1. 既存のログインが引き続き機能する
2. セッション管理が変更されていない
3. ログアウトフローが維持されている

### 成功メトリクス
- 能力評価で pass@3 > 90%
- リグレッション評価で pass^3 = 100%

2. 実装

定義された評価に合格するコードを書く。

3. 評価

# 能力評価を実行
[各能力評価を実行し、PASS/FAILを記録]

# リグレッション評価を実行
npm test -- --testPathPattern="existing"

# レポートを生成

4. レポート

評価レポート: feature-xyz
========================

能力評価:
  create-user:     PASS (pass@1)
  validate-email:  PASS (pass@2)
  hash-password:   PASS (pass@1)
  全体:            3/3 成功

リグレッション評価:
  login-flow:      PASS
  session-mgmt:    PASS
  logout-flow:     PASS
  全体:            3/3 成功

メトリクス:
  pass@1: 67% (2/3)
  pass@3: 100% (3/3)

ステータス: レビュー準備完了

統合パターン

実装前

/eval define feature-name

.claude/evals/feature-name.mdに評価定義ファイルを作成

実装中

/eval check feature-name

現在の評価を実行してステータスを報告

実装後

/eval report feature-name

完全な評価レポートを生成

評価の保存

プロジェクト内に評価を保存：

.claude/
  evals/
    feature-xyz.md      # 評価定義
    feature-xyz.log     # 評価実行履歴
    baseline.json       # リグレッションベースライン

ベストプラクティス

コーディング前に評価を定義 - 成功基準について明確に考えることを強制
頻繁に評価を実行 - リグレッションを早期に検出
時間経過とともにpass@kを追跡 - 信頼性のトレンドを監視
可能な限りコード評価者を使用 - 決定論的 > 確率的
セキュリティは人間レビュー - セキュリティチェックを完全に自動化しない
評価を高速に保つ - 遅い評価は実行されない
コードと一緒に評価をバージョン管理 - 評価はファーストクラスの成果物

例：認証の追加

## EVAL: add-authentication

### フェーズ 1: 定義（10分）
能力評価:
- [ ] ユーザーはメール/パスワードで登録できる
- [ ] ユーザーは有効な資格情報でログインできる
- [ ] 無効な資格情報は適切なエラーで拒否される
- [ ] セッションはページリロード後も持続する
- [ ] ログアウトはセッションをクリアする

リグレッション評価:
- [ ] 公開ルートは引き続きアクセス可能
- [ ] APIレスポンスは変更されていない
- [ ] データベーススキーマは互換性がある

### フェーズ 2: 実装（可変）
[コードを書く]

### フェーズ 3: 評価
Run: /eval check add-authentication

### フェーズ 4: レポート
評価レポート: add-authentication
==============================
能力: 5/5 成功（pass@3: 100%）
リグレッション: 3/3 成功（pass^3: 100%）
ステータス: 出荷可能