CClaude Code Catalog
全スキル

LLM-as-Judge評価

戦略・企画上級

LLMが生成したテキスト、コード、回答などを正確性、関連性、完成度、トーンなど多次元の基準で評価します。複数モデルの出力を比較する際にも有用です。

トリガー/judge
使用頻度週1-2回

AIエンジニアなら? /judgeでプロンプト変更前後の出力品質を定量的に比較

PMがAI機能の品質を管理するときなら? リリース前にAI応答品質を体系的に検証

LLM評価品質管理AI

動作フロー

/judge [評価対象] 実行
フェーズ1: 4つの評価軸を並列実行
accuracy
正確性評価
relevance
関連性評価
completeness
完成度評価
tone-check
トーン/スタイル評価
総合スコア + 改善提案
評価スコアカード + 改善ポイント

スキルコード

# LLM-as-Judge Skill ## Trigger: /judge [text or output to evaluate] When invoked: 1. Establish evaluation criteria: - Accuracy: factual correctness (1-5) - Relevance: addresses the question (1-5) - Completeness: covers all aspects (1-5) - Clarity: easy to understand (1-5) - Tone: appropriate for context (1-5) 2. If comparing multiple outputs: - Apply same rubric to each - Generate side-by-side comparison 3. Output format: --- ## ⚖️ LLM Output Evaluation ### Scorecard | Criteria | Score | Notes | |----------|-------|-------| | Accuracy | [X/5] | [specific observation] | | Relevance | [X/5] | [specific observation] | | Completeness | [X/5] | [specific observation] | | Clarity | [X/5] | [specific observation] | | Tone | [X/5] | [specific observation] | | **Total** | **[X/25]** | | ### Strengths - [what the output does well] ### Weaknesses - [specific issues with evidence] ### Improvement Suggestions 1. [actionable improvement with example rewrite] ### Comparison (if multiple) | Criteria | Output A | Output B | Winner | |----------|---------|---------|--------| ---

コピーしてCLAUDE.mdに貼り付ければ、すぐに使えます。

LLM-as-Judge評価 の仕組み

LLM-as-Judgeは構造化されたルーブリック(事実の正確性、関連性、一貫性、安全性)に対してAI生成出力を評価し、各次元を独立してスコアリングし、複数のモデル出力を評価する際に比較ランキングを提供します。

LLM-as-Judge評価 が力を発揮する場面

プロンプトの変更、モデルのアップグレード、ファインチューニング結果を体系的に評価する必要があるAIプロダクトチームにとって重要です。主観的な「感覚ベース」の評価を再現可能な基準ベースのスコアリングに置き換えます。

主な強み

  • 複数の品質次元で独立して評価
  • 構造化ルーブリックによる再現可能なスコアリングを提供
  • 複数のモデル出力の比較ランキングが可能
  • 主観的評価を体系的な方法論で置き換え

同じカテゴリのスキル

戦略・企画 すべて見る

他カテゴリの人気スキル