본문 바로가기
데블챌

[데분챌 12일차] 통계학의 중요성 (3)

by 만델 2024. 6. 8.

요약

회귀적 모델링

  • 선형 회귀분석: 연속형 변수 Y의 분포가 아닌 Y|X의 분포가 정규분포를 따라야 함
  • 잔차 분석: 잔차가 정규분포를 따르는지 확인하는 과정, 회귀분석의 핵심 요소
  • 목적에 따른 잔차 분석:
    • 분석 목적: Baseline 모델로 잔차 분석을 통해 모형을 개선
    • 예측 목적: 다중공선성 체크 필요
      • 다중공선성: 독립변수들 간 강한 상관 관계로 인해 회귀계수 추정량의 표준오차가 크게 발산하여 신뢰할 수 없는 문제
      • 주의사항: 다중공선성에 지나치게 매몰될 필요 없음
  • 고차원 자료 예측: Penalty term을 개선하며 다양한 Penalized regression 기법을 사용
  • 통계적 모델과 머신러닝: 상호 보완적 관계

시계열 모델링

  • 시계열 자료 요소: 추세, 순환, 계절, 잔차
  • 시계열 모형: ACF, PACF, AR, ARCH, GARCH, ARIMA 등
  • 예측 가능성:
    • 단기 예측: 유효
    • 장기 예측: 장기간 패턴 유지 가정 필요, 현실적으로 어려움
  • 예측 판단 요소:
    • 시계열 예측에 기여하는 요인 이해도
    • 이용 가능한 데이터 양
    • 과거와 미래의 유사성
    • 예측 행위가 예측 대상에 미치는 영향
  • 허구적 회귀: 서로 독립적인 비정상 시계열 변수 간 선형 회귀모형 적합 결과가 통계적으로 유의하게 나타나는 경우

인사이트

  • 회귀적 모델링은 목적에 따라 활용 방법을 달리해야 한다.
  • 시계열 모델링은 여러 제약 조건을 고려하여 예측해야 한다.
  • 허구적 회귀를 주의해야 한다.
  • 적절한 모델링을 통해 정성 분석에 대한 확신과 최적의 결과를 도출할 수 있다.

출처

통계학, 그게 왜 중요한데?