잡플래닛 DIS 팀의 정성현님께서 쓰신 데이터 웨어하우스의 변천 과정에 대한 글을 읽고 요약했습니다.
기존 데이터 파이프라인
- Kafka: 실시간 데이터 스트리밍을 위한 분산 메시징 시스템
- Hive: HDFS에 저장된 대용량 데이터를 컬럼 기반 테이블 형태로 구조화
- Zeppelin: Notebook Interface에서 Presto Query 실행해 데이터 조회
문제
- 최적화 부족: 데이터 단순 탐색 및 확인에만 적합
- 환경 부적합: 데이터 기반 의사결정을 위한 환경이 아님
- 시스템 성능 저하: 빈번한 서버 다운, 느린 응답 속도, 메모리/CPU 부족 이슈 발생
- 비효율적 데이터 모델링: 레플리카 DB에서 복잡한 쿼리문(끊임 없는 Join 절) 필요
- 자동화 미비: 스케줄링 기능 미존재, 데이터 최신화를 위한 수동 작업 -> 비효율성 증가
- 메타 데이터 관리 미흡: 테이블 설명 관리 부족
- 데이터 통합 제약: 내부 DB와 외부 데이터 소스 간 연결 및 통합 어려움
- DB, Amplitude data -> CSV -> Local 작업 수행 -> 정확성 및 신뢰성 저하
데이터 웨어하우스 구축
- DMS에서 개인 식별 정보 처리
- AWS DMS를 사용해 데이터 마이그레이션 및 변환
- 개인 식별 정보(PII)를 마스킹하여 정보계(Google Cloud Platform)에 저장하지 않음
- BigQuery 중심의 데이터 플랫폼
- BigQuery는 GCP의 핵심 도구
- BigQuery 선택 이유
- 빠르고 쉬운 도입
- 테이블 미리보기 기능
- Google Workspace와 원활한 연동
- BigQuery 도입 결과
- 시스템 과부하 방지
- 쿼리 스케줄링 가능
- 다양한 데이터 소스 통합 분석 가능
- Dataform을 활용한 데이터 모델링
- 데이터 변환: 데이터 웨어하우스에 로드된 원본 데이터를 분석 가능한 형태로 변환
- ETL 과정 중 변환 특화 툴
- Dataform 핵심 기능
- 코드 기반 데이터 정의(SQLX)
- 버전 관리 및 협업
- 자동화 및 모니터링
- 데이터 품질 보증
- Dimensional 모델링 도입
- BI 도구 사용
- 주제별 데이터 마트 구축
- Tableau, Metabase, Spreadsheet 활용
- Airflow로 오케스트레이션
- 3rd Party 도구에서 수집한 원본 데이터를 주기적으로 BigQuery에 적재
- ML 학습 및 예측 파이프라인 자동화
향후 방향성
- 데이터 거버넌스 구축
- 데이터 민주화 및 LLM 활용
인사이트
- 데이터 파이프라인 구축은 전사적인 노력이 필요한 공동 작업이다.
- 데이터 품질에 대한 책임은 모든 조직 구성원이 공유해야 한다.
- 현재 우리 회사의 데이터 구조는 서비스 운영에 초점이 맞춰져 있다.
- 서비스 본격화 후 데이터를 효과적으로 관리하기 위해 선제적인 데이터 파이프라인 구축이 필요하다.
- 대규모 프로젝트로 모든 구성원이 필요성을 인식하고 참여해야 성공적으로 시작할 수 있다.
출처
'데블챌' 카테고리의 다른 글
| [데분챌 14일차] 데이터 분석에 대한 생각 (0) | 2024.06.10 |
|---|---|
| [데분챌 12일차] 통계학의 중요성 (3) (0) | 2024.06.08 |
| [데분챌 11일차] 통계학의 중요성 (2) (0) | 2024.06.07 |
| [데분챌 10일차] 통계학의 중요성 (1) (0) | 2024.06.07 |
| [데분챌 9일차] RAG 시스템의 필요성 (0) | 2024.06.05 |