요약
- 통계학은 AI 모델링과 평가에 필수적
- 데이터 사이언스/데이터 분석에서 핵심적인 도구
탐색적 데이터 분석 (EDA)
- 심슨의 역설: 의학 연구 사례를 통해 확인할 수 있음
| 치료법 A | 치료법 B | |
| 작은 결석 | [그룹 1] 93% (81/87) | [그룹 2] 87% (234/270) |
| 큰 결석 | [그룹 3 ] 73% (192/263 | [그룹 4] 69% (55/80) |
| 모두 | 78% (273/350) | 83% (289/350) |
- 단순 EDA 결과와 다변량 분석 결과 간의 상이함 주목
- 데이터 간 상관 관계 고려 필수
- 참고 자료: 심슨의 역설, 조건부 확률, 조건부 분포
실험 설계, 결과 검정, 해석
- 효과적인 실험 설계는 순수 처리 효과와 비용 최소화를 고려
- 검정 결과의 신뢰성을 위해 충분한 샘플 크기 필요
인사이트
- 통계학은 AI와 데이터 분석의 기본 요소
- EDA 결과를 해석할 때 데이터 간 상관 관계 고려 필요
- 통계학에 대한 지속적인 학습이 필요함.
출처
'데블챌' 카테고리의 다른 글
| [데분챌 12일차] 통계학의 중요성 (3) (0) | 2024.06.08 |
|---|---|
| [데분챌 11일차] 통계학의 중요성 (2) (0) | 2024.06.07 |
| [데분챌 9일차] RAG 시스템의 필요성 (0) | 2024.06.05 |
| [데블챌 8일차] 데이터 파이프라인 개념 정리 (0) | 2024.06.04 |
| [데블챌 7일차] ELT: 조금 더 유연하고 효율적인 데이터 분석 환경 (0) | 2024.06.03 |