[데분챌 13일차] 잡플래닛 데이터 웨어하우스 구축 여정 요약

잡플래닛 DIS 팀의 정성현님께서 쓰신 데이터 웨어하우스의 변천 과정에 대한 글을 읽고 요약했습니다.

최적화 부족: 데이터 단순 탐색 및 확인에만 적합
환경 부적합: 데이터 기반 의사결정을 위한 환경이 아님
시스템 성능 저하: 빈번한 서버 다운, 느린 응답 속도, 메모리/CPU 부족 이슈 발생
비효율적 데이터 모델링: 레플리카 DB에서 복잡한 쿼리문(끊임 없는 Join 절) 필요
자동화 미비: 스케줄링 기능 미존재, 데이터 최신화를 위한 수동 작업 -> 비효율성 증가
메타 데이터 관리 미흡: 테이블 설명 관리 부족
데이터 통합 제약: 내부 DB와 외부 데이터 소스 간 연결 및 통합 어려움
- DB, Amplitude data -> CSV -> Local 작업 수행 -> 정확성 및 신뢰성 저하

DMS에서 개인 식별 정보 처리
- AWS DMS를 사용해 데이터 마이그레이션 및 변환
- 개인 식별 정보(PII)를 마스킹하여 정보계(Google Cloud Platform)에 저장하지 않음
BigQuery 중심의 데이터 플랫폼
- BigQuery는 GCP의 핵심 도구
- BigQuery 선택 이유
  - 빠르고 쉬운 도입
  - 테이블 미리보기 기능
  - Google Workspace와 원활한 연동
- BigQuery 도입 결과
  - 시스템 과부하 방지
  - 쿼리 스케줄링 가능
  - 다양한 데이터 소스 통합 분석 가능
Dataform을 활용한 데이터 모델링
- 데이터 변환: 데이터 웨어하우스에 로드된 원본 데이터를 분석 가능한 형태로 변환
- ETL 과정 중 변환 특화 툴
- Dataform 핵심 기능
  - 코드 기반 데이터 정의(SQLX)
  - 버전 관리 및 협업
  - 자동화 및 모니터링
  - 데이터 품질 보증
- Dimensional 모델링 도입
BI 도구 사용
- 주제별 데이터 마트 구축
- Tableau, Metabase, Spreadsheet 활용
Airflow로 오케스트레이션
- 3rd Party 도구에서 수집한 원본 데이터를 주기적으로 BigQuery에 적재
- ML 학습 및 예측 파이프라인 자동화

인사이트