요약
중심극한정리
- 정의: 표본평균의 분포에 관한 정리
- 내용: 표본 크기가 충분히 크면 모집단 형태와 상관없이 표본평균의 분포는 정규분포에 근사한다는 내용
- 수리통계학 관점: 표본평균의 분포 수렴에 대한 이야기 (convergence in distribution) 또는 표본평균의 극한분포 (limiting distribution)
- 응용: 이 개념으로 t-test와 같은 가설 검정을 수월하게 진행 가능
- 샘플링 횟수: 무관
P-value
- 정의: 귀무가설($H_0$)이 참이라는 가정하에 가설 검정 진행
- 귀무가설: 귀무가설이 참이라는 가정 하에 검정 통계량 분포를 구하므로 귀무가설($H_0$)에
=기호를 사용 - 해석: P-value가 매우 작다면, 귀무가설이 참일 확률이 매우 낮음을 의미
- 결론: P-value가 작을 경우 귀무가설을 기각할 수 있음
다중 검정
- 정의: 여러 가설을 동시에 검정하는 과정
- 문제점: 유의 수준 5%로 여러 가설 검증 수행 시 1종 오류 $\alpha$ 값이 매우 커지는 문제 발생
- FWER 조절: FWER (family-wise error rate)를 조절해야 함
- 예시: 본페로니 교정 (Bonferroni correction)
- q-value: FDR (false discovery rate)를 조절하는 방법론
인사이트
- 중심극한정리는 가설 검정을 편하게 진행할 수 있는 이론이다.
- 통계적 가설 검정의 원리와 P-value의 의미를 정확히 파악해야 한다.
- 다중 검정 시 $\alpha$ 값을 낮추기 위한 방법론이 존재한다: q-value.
출처
'데블챌' 카테고리의 다른 글
| [데분챌 13일차] 잡플래닛 데이터 웨어하우스 구축 여정 요약 (0) | 2024.06.09 |
|---|---|
| [데분챌 12일차] 통계학의 중요성 (3) (0) | 2024.06.08 |
| [데분챌 10일차] 통계학의 중요성 (1) (0) | 2024.06.07 |
| [데분챌 9일차] RAG 시스템의 필요성 (0) | 2024.06.05 |
| [데블챌 8일차] 데이터 파이프라인 개념 정리 (0) | 2024.06.04 |