본문 바로가기
데블챌

[데블챌 8일차] 데이터 파이프라인 개념 정리

by 만델 2024. 6. 4.

요약

  • 데이터 파이프라인
    • 원천 데이터로부터 필요한 데이터를 추출, 정제, 변환, 분석 저장 등 차례대로 전달해 나가는 데이터로 구성된 시스템
  • 종류
    • 데이터 웨어하우스 중심
    • 데이터 레이크 중심
  • 데이터 수집 방식
    • 벌크형: 이미 존재하는 데이터를 정리해 추출하는 방법 (정기적 데이터 수집)
    • 스트리밍형: 차례대로 생성 되는 데이터를 쉬지 않고 연속적으로 보내는 방법 (모바일 앱 또는 임베디드 장비에 사용)
  • 데이터 처리 방식
    • 스트림 처리: 수집된 데이터를 처리하는 방식
    • 배치 처리: 대량의 데이터를 저장하고 처리하는 방식
  • 저장소
    • 분산 스토리지: 여러 컴퓨터와 디스크로 구성된 스토리지 시스템.
    • 객체 스토리지:
      • 분산 스토리지의 대표적 예시
      • 폴더와 같이 한 덩어리로 모인 데이터에 이름을 부여해 파일을 저장하는 방식(S3, NoSQL)
  • 분산 데이터 처리: 상황에 따라 빠르게 데이터 가져와서 분석 가능
  • 워크플로 관리: 매일 정해진 시각에 배치 처리 실행 (자동화)

1. 데이터 웨어하우스 중심

  • 프로세스
    데이터 소스 - (ETL) -> 데이터 웨어하우스 - (ETL) -> 데이터 마트 <- (SQL) - 시각화 도구
    • 데이터 웨어하우스: 기업이나 조직에서 사용하는 모든 데이터를 한 곳에서 모아서 관리하고 분석하는 시스템
    • 데이터 마트: 데이터 웨어하우스의 과부하를 최소화 하면서 원하는 데이터를 손 쉽게 가져오고자 만든 시스템 (BI 툴과 연동해서 활용 )

2. 데이터 레이크 중심

  • 프로세스
    데이터 소스 -(가공)> 데이터 레이크 -(가공)> 데이터 마트 <-(SQL)- 시각화 도구
    • 데이터 레이크: Hadoop, Spark와 같은 분산 데이터 처리 기술 활용

인사이트

  • 데이터 파이프 라인의 큰 그림과 관련 개념에 대해 러프하게 배웠습니다.
  • 현업에서 쓰이는 S3 저장소의 특징을 이해할 수 있었습니다.
  • 새로운 툴과 서비스가 나오더라도 기본적인 흐름은 변하지 않는다는 것을 깨달았습니다.
  • 더 깊은 이해를 위해 책으로 보충해야겠습니다.
    빅데이터를 지탱하는 기술

출처

데이터 파이프라인 개념 정리