为 Claude Code 会话提供正式评测框架,支持评估驱动开发流程。
复制安装指令,让 AI 自动完成配置 · 推荐新手
请帮我安装 askskill 上的 "eval-harness" 技能: 1. 下载 https://raw.githubusercontent.com/affaan-m/ECC/main/docs/ja-JP/skills/eval-harness/SKILL.md 2. 保存为 ~/.claude/skills/eval-harness/SKILL.md 3. 装好后重载技能,告诉我可以用了
请用 eval-harness 为这个 Claude Code 会话建立正式评测:目标是实现一个 Python CLI,测试正确性、边界情况和失败样例,并按 EDD 原则输出评测用例、评分标准与结果汇总。
一套结构化评测方案,包含测试用例、评分标准、执行结果与改进建议。
请基于现有需求和历史结果,用 eval-harness 设计一个回归评测流程,验证 Claude Code 在修复 bug 后是否引入新问题,并给出通过/失败判断依据。
可重复执行的回归评测流程,明确展示修复效果及潜在回退风险。
请使用 eval-harness 为新项目制定 EDD 评测基线,先定义成功标准,再设计最小可行任务的评估集,最后说明如何在每次 Claude Code 会话后更新基线。
一份适合持续迭代的评测基线文档,包含标准、样例任务和更新机制。
Claude Codeセッションの正式な評価フレームワークで、評価駆動開発(EDD)の原則を実装します。
評価駆動開発は評価を「AI開発のユニットテスト」として扱います:
Claudeが以前できなかったことができるようになったかをテスト:
[CAPABILITY EVAL: feature-name]
タスク: Claudeが達成すべきことの説明
成功基準:
- [ ] 基準1
- [ ] 基準2
- [ ] 基準3
期待される出力: 期待される結果の説明
変更が既存の機能を破壊しないことを確認:
[REGRESSION EVAL: feature-name]
ベースライン: SHAまたはチェックポイント名
テスト:
- existing-test-1: PASS/FAIL
- existing-test-2: PASS/FAIL
- existing-test-3: PASS/FAIL
結果: X/Y 成功(以前は Y/Y)
コードを使用した決定論的チェック:
# ファイルに期待されるパターンが含まれているかチェック
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"
# テストが成功するかチェック
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"
# ビルドが成功するかチェック
npm run build && echo "PASS" || echo "FAIL"
Claudeを使用して自由形式の出力を評価:
[MODEL GRADER PROMPT]
次のコード変更を評価してください:
1. 記述された問題を解決していますか?
2. 構造化されていますか?
3. エッジケースは処理されていますか?
4. エラー処理は適切ですか?
スコア: 1-5(1=不良、5=優秀)
理由: [説明]
手動レビューのためにフラグを立てる:
[HUMAN REVIEW REQUIRED]
変更内容: 何が変更されたかの説明
理由: 人間のレビューが必要な理由
リスクレベル: LOW/MEDIUM/HIGH
「k回の試行で少なくとも1回成功」
「k回の試行すべてが成功」
## 評価定義: feature-xyz
### 能力評価
1. 新しいユーザーアカウントを作成できる
2. メール形式を検証できる
3. パスワードを安全にハッシュ化できる
### リグレッション評価
1. 既存のログインが引き続き機能する
2. セッション管理が変更されていない
3. ログアウトフローが維持されている
### 成功メトリクス
- 能力評価で pass@3 > 90%
- リグレッション評価で pass^3 = 100%
定義された評価に合格するコードを書く。
# 能力評価を実行
[各能力評価を実行し、PASS/FAILを記録]
# リグレッション評価を実行
npm test -- --testPathPattern="existing"
# レポートを生成
評価レポート: feature-xyz
========================
能力評価:
create-user: PASS (pass@1)
validate-email: PASS (pass@2)
hash-password: PASS (pass@1)
全体: 3/3 成功
リグレッション評価:
login-flow: PASS
session-mgmt: PASS
logout-flow: PASS
全体: 3/3 成功
メトリクス:
pass@1: 67% (2/3)
pass@3: 100% (3/3)
ステータス: レビュー準備完了
/eval define feature-name
.claude/evals/feature-name.mdに評価定義ファイルを作成
/eval check feature-name
現在の評価を実行してステータスを報告
/eval report feature-name
完全な評価レポートを生成
プロジェクト内に評価を保存:
.claude/
evals/
feature-xyz.md # 評価定義
feature-xyz.log # 評価実行履歴
baseline.json # リグレッションベースライン
## EVAL: add-authentication
### フェーズ 1: 定義(10分)
能力評価:
- [ ] ユーザーはメール/パスワードで登録できる
- [ ] ユーザーは有効な資格情報でログインできる
- [ ] 無効な資格情報は適切なエラーで拒否される
- [ ] セッションはページリロード後も持続する
- [ ] ログアウトはセッションをクリアする
リグレッション評価:
- [ ] 公開ルートは引き続きアクセス可能
- [ ] APIレスポンスは変更されていない
- [ ] データベーススキーマは互換性がある
### フェーズ 2: 実装(可変)
[コードを書く]
### フェーズ 3: 評価
Run: /eval check add-authentication
### フェーズ 4: レポート
評価レポート: add-authentication
==============================
能力: 5/5 成功(pass@3: 100%)
リグレッション: 3/3 成功(pass^3: 100%)
ステータス: 出荷可能
帮助开发者为代码代理配置性能优化、安全防护与研究优先工作流。
提供数据库迁移、回滚与零停机发布的最佳实践指导,适用于多种 ORM 与 SQL 数据库。
通过双评审智能体对结果进行对抗式校验,提升输出发布前的可靠性
帮助你掌握地道 Rust 模式、所有权与并发实践,编写安全高性能应用。
基于 C++ Core Guidelines 编写、审查并重构更安全现代的 C++ 代码。
为 Claude Code 会话提供系统化校验流程,帮助检查结果正确性与质量。
为 Claude Code 会话提供正式评估框架,支持评估驱动开发与质量验证。
为 Claude Code 会话建立正式评估流程,支持评测驱动开发与质量验证
为 Claude Code 会话建立基于 EDD 的正式评测框架与质量验证流程
为 Claude Code 会话提供自动化校验流程,帮助检查代码、输出与执行结果。
为 Claude Code 会话提供全面校验流程,提升代码与结果可靠性。
集成多种 Claude Code 工作流,提升开发测试、评审与自动化协作效率