본문 바로가기
데블챌

[데분챌 13일차] 잡플래닛 데이터 웨어하우스 구축 여정 요약

by 만델 2024. 6. 9.

잡플래닛 DIS 팀의 정성현님께서 쓰신 데이터 웨어하우스의 변천 과정에 대한 글을 읽고 요약했습니다.

기존 데이터 파이프라인

  • Kafka: 실시간 데이터 스트리밍을 위한 분산 메시징 시스템
  • Hive: HDFS에 저장된 대용량 데이터를 컬럼 기반 테이블 형태로 구조화
  • Zeppelin: Notebook Interface에서 Presto Query 실행해 데이터 조회

문제

  • 최적화 부족: 데이터 단순 탐색 및 확인에만 적합
  • 환경 부적합: 데이터 기반 의사결정을 위한 환경이 아님
  • 시스템 성능 저하: 빈번한 서버 다운, 느린 응답 속도, 메모리/CPU 부족 이슈 발생
  • 비효율적 데이터 모델링: 레플리카 DB에서 복잡한 쿼리문(끊임 없는 Join 절) 필요
  • 자동화 미비: 스케줄링 기능 미존재, 데이터 최신화를 위한 수동 작업 -> 비효율성 증가
  • 메타 데이터 관리 미흡: 테이블 설명 관리 부족
  • 데이터 통합 제약: 내부 DB와 외부 데이터 소스 간 연결 및 통합 어려움
    • DB, Amplitude data -> CSV -> Local 작업 수행 -> 정확성 및 신뢰성 저하

데이터 웨어하우스 구축

  • DMS에서 개인 식별 정보 처리
    • AWS DMS를 사용해 데이터 마이그레이션 및 변환
    • 개인 식별 정보(PII)를 마스킹하여 정보계(Google Cloud Platform)에 저장하지 않음
  • BigQuery 중심의 데이터 플랫폼
    • BigQuery는 GCP의 핵심 도구
    • BigQuery 선택 이유
      • 빠르고 쉬운 도입
      • 테이블 미리보기 기능
      • Google Workspace와 원활한 연동
    • BigQuery 도입 결과
      • 시스템 과부하 방지
      • 쿼리 스케줄링 가능
      • 다양한 데이터 소스 통합 분석 가능
  • Dataform을 활용한 데이터 모델링
    • 데이터 변환: 데이터 웨어하우스에 로드된 원본 데이터를 분석 가능한 형태로 변환
    • ETL 과정 중 변환 특화 툴
    • Dataform 핵심 기능
      • 코드 기반 데이터 정의(SQLX)
      • 버전 관리 및 협업
      • 자동화 및 모니터링
      • 데이터 품질 보증
    • Dimensional 모델링 도입
  • BI 도구 사용
    • 주제별 데이터 마트 구축
    • Tableau, Metabase, Spreadsheet 활용
  • Airflow로 오케스트레이션
    • 3rd Party 도구에서 수집한 원본 데이터를 주기적으로 BigQuery에 적재
    • ML 학습 및 예측 파이프라인 자동화

향후 방향성

  • 데이터 거버넌스 구축
  • 데이터 민주화 및 LLM 활용

인사이트

  • 데이터 파이프라인 구축은 전사적인 노력이 필요한 공동 작업이다.
  • 데이터 품질에 대한 책임은 모든 조직 구성원이 공유해야 한다.
  • 현재 우리 회사의 데이터 구조는 서비스 운영에 초점이 맞춰져 있다.
  • 서비스 본격화 후 데이터를 효과적으로 관리하기 위해 선제적인 데이터 파이프라인 구축이 필요하다.
  • 대규모 프로젝트로 모든 구성원이 필요성을 인식하고 참여해야 성공적으로 시작할 수 있다.

출처

잡플래닛 데이터 웨어하우스 구축 여정