CClaude Code Catalog
전체 스킬

LLM-as-Judge 평가

전략/기획고급

LLM이 생성한 텍스트, 코드, 답변 등을 정확성, 관련성, 완성도, 톤 등 다차원 기준으로 평가합니다. 여러 모델의 출력을 비교할 때도 유용합니다.

트리거/judge
사용빈도주 1-2회

AI 엔지니어라면? /judge로 프롬프트 변경 전후 출력 품질을 정량적으로 비교

PM이 AI 기능 품질을 관리할 때라면? 출시 전 AI 응답 품질을 체계적으로 검증

LLM평가품질 관리AI

작동 흐름

/judge [평가 대상] 실행
Phase 1: 4개 평가 축 병렬
accuracy
정확성 평가
relevance
관련성 평가
completeness
완성도 평가
tone-check
톤/스타일 평가
종합 점수 + 개선 제안
평가 스코어카드 + 개선 포인트

스킬 코드

# LLM-as-Judge Skill ## Trigger: /judge [text or output to evaluate] When invoked: 1. Establish evaluation criteria: - Accuracy: factual correctness (1-5) - Relevance: addresses the question (1-5) - Completeness: covers all aspects (1-5) - Clarity: easy to understand (1-5) - Tone: appropriate for context (1-5) 2. If comparing multiple outputs: - Apply same rubric to each - Generate side-by-side comparison 3. Output format: --- ## ⚖️ LLM Output Evaluation ### Scorecard | Criteria | Score | Notes | |----------|-------|-------| | Accuracy | [X/5] | [specific observation] | | Relevance | [X/5] | [specific observation] | | Completeness | [X/5] | [specific observation] | | Clarity | [X/5] | [specific observation] | | Tone | [X/5] | [specific observation] | | **Total** | **[X/25]** | | ### Strengths - [what the output does well] ### Weaknesses - [specific issues with evidence] ### Improvement Suggestions 1. [actionable improvement with example rewrite] ### Comparison (if multiple) | Criteria | Output A | Output B | Winner | |----------|---------|---------|--------| ---

복사해서 CLAUDE.md에 붙여넣으면 바로 사용할 수 있습니다.

LLM-as-Judge 평가 작동 방식

LLM-as-Judge는 구조화된 루브릭(사실 정확성, 관련성, 일관성, 안전성)에 대해 AI 생성 출력을 평가하고, 각 차원을 독립적으로 스코어링하며, 여러 모델 출력을 평가할 때 비교 랭킹을 제공합니다.

LLM-as-Judge 평가이(가) 빛나는 순간

프롬프트 변경, 모델 업그레이드, 파인튜닝 결과를 체계적으로 평가해야 하는 AI 프로덕트 팀에 핵심적입니다. 주관적 '감 기반' 평가를 재현 가능한 기준 기반 스코어링으로 대체합니다.

핵심 특장점

  • 여러 품질 차원에서 독립적으로 평가
  • 구조화된 루브릭을 통한 재현 가능한 스코어링
  • 여러 모델 출력의 비교 랭킹 가능
  • 주관적 평가를 체계적 방법론으로 대체

같은 카테고리 스킬

전략/기획 전체 보기

다른 카테고리 인기 스킬