요약
- 데이터 파이프라인
- 원천 데이터로부터 필요한 데이터를 추출, 정제, 변환, 분석 저장 등 차례대로 전달해 나가는 데이터로 구성된 시스템
- 종류
- 데이터 웨어하우스 중심
- 데이터 레이크 중심
- 데이터 수집 방식
- 벌크형: 이미 존재하는 데이터를 정리해 추출하는 방법 (정기적 데이터 수집)
- 스트리밍형: 차례대로 생성 되는 데이터를 쉬지 않고 연속적으로 보내는 방법 (모바일 앱 또는 임베디드 장비에 사용)
- 데이터 처리 방식
- 스트림 처리: 수집된 데이터를 처리하는 방식
- 배치 처리: 대량의 데이터를 저장하고 처리하는 방식
- 저장소
- 분산 스토리지: 여러 컴퓨터와 디스크로 구성된 스토리지 시스템.
- 객체 스토리지:
- 분산 스토리지의 대표적 예시
- 폴더와 같이 한 덩어리로 모인 데이터에 이름을 부여해 파일을 저장하는 방식(S3, NoSQL)
- 분산 데이터 처리: 상황에 따라 빠르게 데이터 가져와서 분석 가능
- 워크플로 관리: 매일 정해진 시각에 배치 처리 실행 (자동화)
1. 데이터 웨어하우스 중심
- 프로세스
데이터 소스 - (ETL) -> 데이터 웨어하우스 - (ETL) -> 데이터 마트 <- (SQL) - 시각화 도구- 데이터 웨어하우스: 기업이나 조직에서 사용하는 모든 데이터를 한 곳에서 모아서 관리하고 분석하는 시스템
- 데이터 마트: 데이터 웨어하우스의 과부하를 최소화 하면서 원하는 데이터를 손 쉽게 가져오고자 만든 시스템 (BI 툴과 연동해서 활용 )
2. 데이터 레이크 중심
- 프로세스
데이터 소스 -(가공)> 데이터 레이크 -(가공)> 데이터 마트 <-(SQL)- 시각화 도구- 데이터 레이크: Hadoop, Spark와 같은 분산 데이터 처리 기술 활용
인사이트
- 데이터 파이프 라인의 큰 그림과 관련 개념에 대해 러프하게 배웠습니다.
- 현업에서 쓰이는 S3 저장소의 특징을 이해할 수 있었습니다.
- 새로운 툴과 서비스가 나오더라도 기본적인 흐름은 변하지 않는다는 것을 깨달았습니다.
- 더 깊은 이해를 위해 책으로 보충해야겠습니다.
빅데이터를 지탱하는 기술
출처
'데블챌' 카테고리의 다른 글
| [데분챌 10일차] 통계학의 중요성 (1) (0) | 2024.06.07 |
|---|---|
| [데분챌 9일차] RAG 시스템의 필요성 (0) | 2024.06.05 |
| [데블챌 7일차] ELT: 조금 더 유연하고 효율적인 데이터 분석 환경 (0) | 2024.06.03 |
| [데블챌 6일차] ROUGE: 문서 요약의 품질을 측정하는 지표 (0) | 2024.06.02 |
| [데블챌 5일차] 번역 품질을 측정하는 BLEU 스코어: 기계번역의 신뢰성을 평가하다 (0) | 2024.06.01 |