본문 바로가기
데블챌

[데블챌 5일차] 번역 품질을 측정하는 BLEU 스코어: 기계번역의 신뢰성을 평가하다

by 만델 2024. 6. 1.

요약

  • BLEU 스코어는 기계 번역 결과와 사람이 번역한 참조 번역 사이의 유사도를 측정하는 평가 지표입니다.
  • 이는 n-gram을 활용하여 번역의 정확성을 평가합니다. N-gram은 연속된 n개의 단어 또는 문자를 의미합니다.
  • 기계 번역과 참조 번역이 일치하는 n-gram의 개수를 전체 n-gram 개수로 나누어 precision을 계산하며, 이를 기하 평균으로 구합니다.
  • 번역의 길이가 짧을 경우 품질이 떨어지는 문제를 보정하기 위해 brevity penalty (BP)가 도입되었습니다.
  • BLEU 스코어는 BP와 precision에 가중치를 부여하여 최종적인 번역 품질을 나타냅니다.

1. BLEU 스코어 계산 방법

  • N-gram을 활용한 정확성 측정: 번역의 일치하는 n-gram 개수를 전체 n-gram 개수로 나누어 precision을 계산합니다.
    $$\frac{기계 번역과 참조 번역 일치 개수}{n-gram 총 개수}$$
  • Brevity Penalty (BP) 도입: 번역의 길이가 참조 번역보다 짧을 경우 품질 보정을 위해 사용됩니다.
    $$BP = \begin{cases} 1, ; if\ c\ >\ r \ e^{(1-r/c)}, ; if\ c\ \leq\ r \end{cases} $$
  • 최종 BLEU 스코어 계산: BP와 precision에 가중치를 부여하여 번역 품질을 종합적으로 평가합니다.
    $$ BLEU = BP \cdotp exp(\sum{N}{n=1}w_nlogp_n)$$

2. BLEU 스코어의 특징

  • 간단하고 직관적인 지표: 번역 연구 분야에서 널리 사용되며, 다양한 언어 쌍과 도메인에 적용 가능합니다.
  • 사람의 평가와 상관 관계: BLEU 스코어는 사람의 평가와 일정한 상관 관계를 나타냅니다.
  • 주요 이슈: 문법적 구조를 반영하지 못하는 점이 가장 큰 문제입니다.
  • 띄어쓰기 없는 언어: 띄어쓰기가 없는 언어의 경우 어떻게 단위를 나눌지에 대한 문제가 있습니다.

인사이트

  • BLEU 스코어는 번역 품질을 객관적으로 측정하는 중요한 도구입니다.
  • 그러나 문법적 구조 등의 한계를 인지하고, 참조 번역의 양이 충분한지를 고려해야 합니다.
  • 띄어쓰기 없는 언어에 대한 적용 가능성 등에 대한 연구가 필요합니다.

출처

BLEU : 기계번역에서 많이 사용하는 지표