요약
- BLEU 스코어는 기계 번역 결과와 사람이 번역한 참조 번역 사이의 유사도를 측정하는 평가 지표입니다.
- 이는 n-gram을 활용하여 번역의 정확성을 평가합니다. N-gram은 연속된 n개의 단어 또는 문자를 의미합니다.
- 기계 번역과 참조 번역이 일치하는 n-gram의 개수를 전체 n-gram 개수로 나누어 precision을 계산하며, 이를 기하 평균으로 구합니다.
- 번역의 길이가 짧을 경우 품질이 떨어지는 문제를 보정하기 위해
brevity penalty(BP)가 도입되었습니다. - BLEU 스코어는 BP와 precision에 가중치를 부여하여 최종적인 번역 품질을 나타냅니다.
1. BLEU 스코어 계산 방법
- N-gram을 활용한 정확성 측정: 번역의 일치하는 n-gram 개수를 전체 n-gram 개수로 나누어 precision을 계산합니다.
$$\frac{기계 번역과 참조 번역 일치 개수}{n-gram 총 개수}$$ - Brevity Penalty (BP) 도입: 번역의 길이가 참조 번역보다 짧을 경우 품질 보정을 위해 사용됩니다.
$$BP = \begin{cases} 1, ; if\ c\ >\ r \ e^{(1-r/c)}, ; if\ c\ \leq\ r \end{cases} $$ - 최종 BLEU 스코어 계산: BP와 precision에 가중치를 부여하여 번역 품질을 종합적으로 평가합니다.
$$ BLEU = BP \cdotp exp(\sum{N}{n=1}w_nlogp_n)$$
2. BLEU 스코어의 특징
- 간단하고 직관적인 지표: 번역 연구 분야에서 널리 사용되며, 다양한 언어 쌍과 도메인에 적용 가능합니다.
- 사람의 평가와 상관 관계: BLEU 스코어는 사람의 평가와 일정한 상관 관계를 나타냅니다.
- 주요 이슈: 문법적 구조를 반영하지 못하는 점이 가장 큰 문제입니다.
- 띄어쓰기 없는 언어: 띄어쓰기가 없는 언어의 경우 어떻게 단위를 나눌지에 대한 문제가 있습니다.
인사이트
- BLEU 스코어는 번역 품질을 객관적으로 측정하는 중요한 도구입니다.
- 그러나 문법적 구조 등의 한계를 인지하고, 참조 번역의 양이 충분한지를 고려해야 합니다.
- 띄어쓰기 없는 언어에 대한 적용 가능성 등에 대한 연구가 필요합니다.
출처
'데블챌' 카테고리의 다른 글
| [데블챌 7일차] ELT: 조금 더 유연하고 효율적인 데이터 분석 환경 (0) | 2024.06.03 |
|---|---|
| [데블챌 6일차] ROUGE: 문서 요약의 품질을 측정하는 지표 (0) | 2024.06.02 |
| [데블챌 4일차]Python Matplotlib 예제 정리 (0) | 2024.06.01 |
| [데블챌 3일차] 데이터 모델링: 속성과 관련된 주제 3가지 (0) | 2024.05.30 |
| [데블챌 2일차] 데이터 분석 쉽게 이해하기 (0) | 2024.05.29 |