본문 바로가기
데블챌

[데블챌 6일차] ROUGE: 문서 요약의 품질을 측정하는 지표

by 만델 2024. 6. 2.

요약

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 자동으로 생성된 요약과 사람이 작성한 기준 요약 간의 일치도를 측정하는 평가 지표입니다. 이는 문서 요약의 품질을 평가하는 데 사용되는데요. ROUGE는 단어나 구의 재현율을 측정하는데, 주로 n-gram 일치도나 가장 긴 공통 부분 열을 기반으로 합니다.

1. ROUGE 지표 소개

  • ROUGE-N: n-gram 일치도를 기반으로 합니다.
  • ROUGE-L: 가장 긴 공통 부분 열을 기반으로 합니다.
  • 수식: ROUGE-N은 참조 요약과 시스템 요약 사이의 n-gram 중복 수를 참조 요약의 총 단어 수로 나눈 값입니다.
    $$ROUGE-N = \frac{Number\ of\ overlapped\ n-gram}{Total\ words\ in\ reference\ summary}$$

2. ROUGE 계산 예시

  • 시스템 요약: "The cat was found under the bed"
  • 참조 요약: "the cat was under the bed"
  • 시스템 요약(bigrams): "the cat", "cat was", "was found", "found under", "under the", "the bed"
  • 참조 요약(bigrams): "the cat", "cat was", "was under", "under the", "the bed"
  • 결과: ROUGE-2는 4를 5로 나눈 값으로 계산됩니다.
    $$ROUGE-2 = \frac{4}{5}$$

인사이트

ROUGE는 실제 LLM 모델 성능 평가에 사용되며, 통계적 지표와 주관적 평가를 함께 고려합니다.
모델 성능 평가 시 여러 가지 지표와 방법을 복합적으로 사용하여 종합적인 평가가 필요합니다.

출처