LLM-as-Judge評価
戦略・企画上級
LLMが生成したテキスト、コード、回答などを正確性、関連性、完成度、トーンなど多次元の基準で評価します。複数モデルの出力を比較する際にも有用です。
トリガー
/judge使用頻度週1-2回
AIエンジニアなら? /judgeでプロンプト変更前後の出力品質を定量的に比較
PMがAI機能の品質を管理するときなら? リリース前にAI応答品質を体系的に検証
LLM評価品質管理AI
動作フロー
/judge [評価対象] 実行
↓
フェーズ1: 4つの評価軸を並列実行
accuracy
正確性評価
relevance
関連性評価
completeness
完成度評価
tone-check
トーン/スタイル評価
↓
総合スコア + 改善提案
↓
✓ 評価スコアカード + 改善ポイント
スキルコード
# LLM-as-Judge Skill
## Trigger: /judge [text or output to evaluate]
When invoked:
1. Establish evaluation criteria:
- Accuracy: factual correctness (1-5)
- Relevance: addresses the question (1-5)
- Completeness: covers all aspects (1-5)
- Clarity: easy to understand (1-5)
- Tone: appropriate for context (1-5)
2. If comparing multiple outputs:
- Apply same rubric to each
- Generate side-by-side comparison
3. Output format:
---
## ⚖️ LLM Output Evaluation
### Scorecard
| Criteria | Score | Notes |
|----------|-------|-------|
| Accuracy | [X/5] | [specific observation] |
| Relevance | [X/5] | [specific observation] |
| Completeness | [X/5] | [specific observation] |
| Clarity | [X/5] | [specific observation] |
| Tone | [X/5] | [specific observation] |
| **Total** | **[X/25]** | |
### Strengths
- [what the output does well]
### Weaknesses
- [specific issues with evidence]
### Improvement Suggestions
1. [actionable improvement with example rewrite]
### Comparison (if multiple)
| Criteria | Output A | Output B | Winner |
|----------|---------|---------|--------|
---
コピーしてCLAUDE.mdに貼り付ければ、すぐに使えます。
LLM-as-Judge評価 の仕組み
LLM-as-Judgeは構造化されたルーブリック(事実の正確性、関連性、一貫性、安全性)に対してAI生成出力を評価し、各次元を独立してスコアリングし、複数のモデル出力を評価する際に比較ランキングを提供します。
LLM-as-Judge評価 が力を発揮する場面
プロンプトの変更、モデルのアップグレード、ファインチューニング結果を体系的に評価する必要があるAIプロダクトチームにとって重要です。主観的な「感覚ベース」の評価を再現可能な基準ベースのスコアリングに置き換えます。
主な強み
- 複数の品質次元で独立して評価
- 構造化ルーブリックによる再現可能なスコアリングを提供
- 複数のモデル出力の比較ランキングが可能
- 主観的評価を体系的な方法論で置き換え