요약
회귀적 모델링
- 선형 회귀분석: 연속형 변수 Y의 분포가 아닌
Y|X의 분포가 정규분포를 따라야 함 - 잔차 분석: 잔차가 정규분포를 따르는지 확인하는 과정, 회귀분석의 핵심 요소
- 목적에 따른 잔차 분석:
- 분석 목적: Baseline 모델로 잔차 분석을 통해 모형을 개선
- 예측 목적: 다중공선성 체크 필요
- 다중공선성: 독립변수들 간 강한 상관 관계로 인해 회귀계수 추정량의 표준오차가 크게 발산하여 신뢰할 수 없는 문제
- 주의사항: 다중공선성에 지나치게 매몰될 필요 없음
- 고차원 자료 예측: Penalty term을 개선하며 다양한 Penalized regression 기법을 사용
- 통계적 모델과 머신러닝: 상호 보완적 관계
시계열 모델링
- 시계열 자료 요소: 추세, 순환, 계절, 잔차
- 시계열 모형: ACF, PACF, AR, ARCH, GARCH, ARIMA 등
- 예측 가능성:
- 단기 예측: 유효
- 장기 예측: 장기간 패턴 유지 가정 필요, 현실적으로 어려움
- 예측 판단 요소:
- 시계열 예측에 기여하는 요인 이해도
- 이용 가능한 데이터 양
- 과거와 미래의 유사성
- 예측 행위가 예측 대상에 미치는 영향
- 허구적 회귀: 서로 독립적인 비정상 시계열 변수 간 선형 회귀모형 적합 결과가 통계적으로 유의하게 나타나는 경우
인사이트
- 회귀적 모델링은 목적에 따라 활용 방법을 달리해야 한다.
- 시계열 모델링은 여러 제약 조건을 고려하여 예측해야 한다.
- 허구적 회귀를 주의해야 한다.
- 적절한 모델링을 통해 정성 분석에 대한 확신과 최적의 결과를 도출할 수 있다.
출처
'데블챌' 카테고리의 다른 글
| [데분챌 14일차] 데이터 분석에 대한 생각 (0) | 2024.06.10 |
|---|---|
| [데분챌 13일차] 잡플래닛 데이터 웨어하우스 구축 여정 요약 (0) | 2024.06.09 |
| [데분챌 11일차] 통계학의 중요성 (2) (0) | 2024.06.07 |
| [데분챌 10일차] 통계학의 중요성 (1) (0) | 2024.06.07 |
| [데분챌 9일차] RAG 시스템의 필요성 (0) | 2024.06.05 |