LLM-as-Judge評価

戦略・企画上級

LLMが生成したテキスト、コード、回答などを正確性、関連性、完成度、トーンなど多次元の基準で評価します。複数モデルの出力を比較する際にも有用です。

トリガー/judge

使用頻度週1-2回

AIエンジニアなら？ /judgeでプロンプト変更前後の出力品質を定量的に比較

PMがAI機能の品質を管理するときなら？リリース前にAI応答品質を体系的に検証

LLM評価品質管理AI

動作フロー

/judge [評価対象] 実行

↓

フェーズ1: 4つの評価軸を並列実行

accuracy

正確性評価

relevance

スキルコード

# LLM-as-Judge Skill
## Trigger: /judge [text or output to evaluate]

When invoked:

1. Establish evaluation criteria:
 - Accuracy: factual correctness (1-5)
 - Relevance: addresses the question (1-5)
 - Completeness: covers all aspects (1-5)
 - Clarity: easy to understand (1-5)
 - Tone: appropriate for context (1-5)

2. If comparing multiple outputs:
 - Apply same rubric to each
 - Generate side-by-side comparison

3. Output format:
---
## ⚖️ LLM Output Evaluation

### Scorecard
| Criteria | Score | Notes |
|----------|-------|-------|
| Accuracy | [X/5] | [specific observation] |
| Relevance | [X/5] | [specific observation] |
| Completeness | [X/5] | [specific observation] |
| Clarity | [X/5] | [specific observation] |
| Tone | [X/5] | [specific observation] |
| **Total** | **[X/25]** | |

### Strengths
- [what the output does well]

### Weaknesses
- [specific issues with evidence]

### Improvement Suggestions
1. [actionable improvement with example rewrite]

### Comparison (if multiple)
| Criteria | Output A | Output B | Winner |
|----------|---------|---------|--------|
---

コピーしてCLAUDE.mdに貼り付ければ、すぐに使えます。

LLM-as-Judge評価の仕組み

LLM-as-Judgeは構造化されたルーブリック（事実の正確性、関連性、一貫性、安全性）に対してAI生成出力を評価し、各次元を独立してスコアリングし、複数のモデル出力を評価する際に比較ランキングを提供します。

LLM-as-Judge評価が力を発揮する場面

プロンプトの変更、モデルのアップグレード、ファインチューニング結果を体系的に評価する必要があるAIプロダクトチームにとって重要です。主観的な「感覚ベース」の評価を再現可能な基準ベースのスコアリングに置き換えます。

主な強み

複数の品質次元で独立して評価
構造化ルーブリックによる再現可能なスコアリングを提供
複数のモデル出力の比較ランキングが可能
主観的評価を体系的な方法論で置き換え

同じカテゴリのスキル

戦略・企画すべて見る

PRDライター

構造化された質問を通じて完成度の高いPRDを自動生成します。

競合分析

競合他社を体系的に分析し比較マトリクスを生成します。

ユーザーストーリー生成

要件からacceptance criteria付きのユーザーストーリーを生成します。

他カテゴリの人気スキル

セッションサマリー

ワークフロー作業セッション終了時に変更内容と次のタスクを自動で整理します。

スマートコミット

コーディング変更内容を分析し意味のあるコミットメッセージを自動生成します。

CLAUDE.mdビルダー

生産性プロジェクトを分析し最適化されたCLAUDE.mdを自動生成します。