[데블챌 5일차] 번역 품질을 측정하는 BLEU 스코어: 기계번역의 신뢰성을 평가하다

BLEU 스코어는 기계 번역 결과와 사람이 번역한 참조 번역 사이의 유사도를 측정하는 평가 지표입니다.
이는 n-gram을 활용하여 번역의 정확성을 평가합니다. N-gram은 연속된 n개의 단어 또는 문자를 의미합니다.
기계 번역과 참조 번역이 일치하는 n-gram의 개수를 전체 n-gram 개수로 나누어 precision을 계산하며, 이를 기하 평균으로 구합니다.
번역의 길이가 짧을 경우 품질이 떨어지는 문제를 보정하기 위해 brevity penalty (BP)가 도입되었습니다.
BLEU 스코어는 BP와 precision에 가중치를 부여하여 최종적인 번역 품질을 나타냅니다.

N-gram을 활용한 정확성 측정: 번역의 일치하는 n-gram 개수를 전체 n-gram 개수로 나누어 precision을 계산합니다.
$$\frac{기계 번역과 참조 번역 일치 개수}{n-gram 총 개수}$$
Brevity Penalty (BP) 도입: 번역의 길이가 참조 번역보다 짧을 경우 품질 보정을 위해 사용됩니다.
$$BP = \begin{cases} 1, ; if\ c\ >\ r \ e^{(1-r/c)}, ; if\ c\ \leq\ r \end{cases} $$
최종 BLEU 스코어 계산: BP와 precision에 가중치를 부여하여 번역 품질을 종합적으로 평가합니다.
$$ BLEU = BP \cdotp exp(\sum{N}{n=1}w_nlogp_n)$$

[데블챌 7일차] ELT: 조금 더 유연하고 효율적인 데이터 분석 환경 (0)	2024.06.03
[데블챌 6일차] ROUGE: 문서 요약의 품질을 측정하는 지표 (0)	2024.06.02
[데블챌 4일차]Python Matplotlib 예제 정리 (0)	2024.06.01
[데블챌 3일차] 데이터 모델링: 속성과 관련된 주제 3가지 (0)	2024.05.30
[데블챌 2일차] 데이터 분석 쉽게 이해하기 (0)	2024.05.29

만델리아(Mandelia)