요약
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 자동으로 생성된 요약과 사람이 작성한 기준 요약 간의 일치도를 측정하는 평가 지표입니다. 이는 문서 요약의 품질을 평가하는 데 사용되는데요. ROUGE는 단어나 구의 재현율을 측정하는데, 주로 n-gram 일치도나 가장 긴 공통 부분 열을 기반으로 합니다.
1. ROUGE 지표 소개
- ROUGE-N: n-gram 일치도를 기반으로 합니다.
- ROUGE-L: 가장 긴 공통 부분 열을 기반으로 합니다.
- 수식: ROUGE-N은 참조 요약과 시스템 요약 사이의 n-gram 중복 수를 참조 요약의 총 단어 수로 나눈 값입니다.
$$ROUGE-N = \frac{Number\ of\ overlapped\ n-gram}{Total\ words\ in\ reference\ summary}$$
2. ROUGE 계산 예시
- 시스템 요약: "The cat was found under the bed"
- 참조 요약: "the cat was under the bed"
- 시스템 요약(bigrams): "the cat", "cat was", "was found", "found under", "under the", "the bed"
- 참조 요약(bigrams): "the cat", "cat was", "was under", "under the", "the bed"
- 결과: ROUGE-2는 4를 5로 나눈 값으로 계산됩니다.
$$ROUGE-2 = \frac{4}{5}$$
인사이트
ROUGE는 실제 LLM 모델 성능 평가에 사용되며, 통계적 지표와 주관적 평가를 함께 고려합니다.
모델 성능 평가 시 여러 가지 지표와 방법을 복합적으로 사용하여 종합적인 평가가 필요합니다.
출처
'데블챌' 카테고리의 다른 글
| [데블챌 8일차] 데이터 파이프라인 개념 정리 (0) | 2024.06.04 |
|---|---|
| [데블챌 7일차] ELT: 조금 더 유연하고 효율적인 데이터 분석 환경 (0) | 2024.06.03 |
| [데블챌 5일차] 번역 품질을 측정하는 BLEU 스코어: 기계번역의 신뢰성을 평가하다 (0) | 2024.06.01 |
| [데블챌 4일차]Python Matplotlib 예제 정리 (0) | 2024.06.01 |
| [데블챌 3일차] 데이터 모델링: 속성과 관련된 주제 3가지 (0) | 2024.05.30 |