[데블챌 8일차] 데이터 파이프라인 개념 정리

요약

데이터 파이프라인
- 원천 데이터로부터 필요한 데이터를 추출, 정제, 변환, 분석 저장 등 차례대로 전달해 나가는 데이터로 구성된 시스템
종류
- 데이터 웨어하우스 중심
- 데이터 레이크 중심
데이터 수집 방식
- 벌크형: 이미 존재하는 데이터를 정리해 추출하는 방법 (정기적 데이터 수집)
- 스트리밍형: 차례대로 생성 되는 데이터를 쉬지 않고 연속적으로 보내는 방법 (모바일 앱 또는 임베디드 장비에 사용)
데이터 처리 방식
- 스트림 처리: 수집된 데이터를 처리하는 방식
- 배치 처리: 대량의 데이터를 저장하고 처리하는 방식
저장소
- 분산 스토리지: 여러 컴퓨터와 디스크로 구성된 스토리지 시스템.
- 객체 스토리지:
  - 분산 스토리지의 대표적 예시
  - 폴더와 같이 한 덩어리로 모인 데이터에 이름을 부여해 파일을 저장하는 방식(S3, NoSQL)
분산 데이터 처리: 상황에 따라 빠르게 데이터 가져와서 분석 가능
워크플로 관리: 매일 정해진 시각에 배치 처리 실행 (자동화)

프로세스
데이터 소스 - (ETL) -> 데이터 웨어하우스 - (ETL) -> 데이터 마트 <- (SQL) - 시각화 도구
- 데이터 웨어하우스: 기업이나 조직에서 사용하는 모든 데이터를 한 곳에서 모아서 관리하고 분석하는 시스템
- 데이터 마트: 데이터 웨어하우스의 과부하를 최소화 하면서 원하는 데이터를 손 쉽게 가져오고자 만든 시스템 (BI 툴과 연동해서 활용 )

프로세스
데이터 소스 -(가공)> 데이터 레이크 -(가공)> 데이터 마트 <-(SQL)- 시각화 도구
- 데이터 레이크: Hadoop, Spark와 같은 분산 데이터 처리 기술 활용

[데분챌 10일차] 통계학의 중요성 (1) (0)	2024.06.07
[데분챌 9일차] RAG 시스템의 필요성 (0)	2024.06.05
[데블챌 7일차] ELT: 조금 더 유연하고 효율적인 데이터 분석 환경 (0)	2024.06.03
[데블챌 6일차] ROUGE: 문서 요약의 품질을 측정하는 지표 (0)	2024.06.02
[데블챌 5일차] 번역 품질을 측정하는 BLEU 스코어: 기계번역의 신뢰성을 평가하다 (0)	2024.06.01