물의 흐름으로 누구나 쉽게 이해하는 데이터 파이프라인

제가 데이터 파이프라인을 설명할 때 자주 사용하는 비유로 물이 흐르는 상수도를 떠올리는 것입니다. 물이 수도관을 통해 각 가정에 공급되는 과정과 데이터가 파이프라인을 통해 필요한 곳으로 이동하는 과정을 비교해보면 이해가 더 쉬워질 것입니다.


  1. 수원지: 원천 데이터 (데이터 레이크)

  • 데이터 파이프라인의 첫 출발점은 '수원지'에 해당하는 원천 데이터입니다. 수원지는 다양한 데이터 소스를 의미합니다. 원천 데이터는 아직 정제되지 않았고, 다양한 형태와 크기로 존재할 수 있습니다. 이 데이터는 개발 단계에서 생성되거나 여러 외부 시스템에서 수집됩니다.


  1. 상수도: 데이터 웨어하우스

  • 데이터 웨어하우스는 정제된 다양한 형태의 데이터를 보관하는 저장소로, 물이 상수도에서 정수와 여과 과정을 거치는 것처럼 원천 데이터는 정제를 거쳐 '데이터 웨어하우스'로 모입니다.

  • 따라서 수원지에 데이터가 어느정도 오염(중복되어 있거나 잘못 입력 된 데이터, 혹은 누락)이 있더라도 미리 정의한 비즈니스 스키마에 따라 필터가 되기 때문에 이 과정에서 상당수 사용 가능한 데이터로 변환 됩니다.


  1. 수도관: 데이터 파이프라인

  • 수도관은 데이터를 필요한 곳으로 보내는 경로입니다. 이 과정에서 데이터를 정제하고 변환하여 가정집으로 안전하게 보내기 위한 여러 단계가 이루어집니다. 즉, 데이터 파이프라인은 데이터를 정제하고, 여과하며, 필요한 형식으로 변환하는 일련의 과정을 담당합니다. 이 단계에서 데이터는 다양한 필터링, 집계, 변환 등의 작업을 거쳐 최종 사용자에게 적합한 형태로 바뀝니다.


  1. 가정집: 데이터 사용처 (데이터 마트)

  • 물이 수도관을 통해 가정집에 도달하듯이, 최종 사용자는 필요한 데이터를 활용하게 됩니다. 이때의 데이터는 이미 정제되고 가공된 상태로, 사용자는 이 데이터를 분석하거나 보고서에 활용하는 등의 작업을 수행합니다.


전체 흐름

  • 수원지에서 물을 모아 상수도를 통해 정수한 후 각 가정집으로 물을 보내는 과정은, 데이터가 원천에서 수집되어 데이터 웨어하우스로 모이고, 데이터 파이프라인을 통해 정제되고 변환되어 최종 사용처로 전달되는 과정과 매우 흡사합니다. 이 비유를 통해 데이터 파이프라인의 복잡한 과정을 물의 흐름처럼 쉽게 이해할 수 있습니다.


데이터는 마치 물처럼, 필요한 곳으로 안전하고 깨끗하게 전달되어야 합니다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 9일 오후 2:45

댓글 3

함께 읽은 게시물

오픈소스로 완성하는 AI Full Stack

AI와 관련된 수 많은 오픈소스들이 쏟아지면서 오픈소스 생태계는 그야말로 AI 오픈소스 르네상스를 맞이하고 있습니다. LangChain의 성공을 시작으로 많은 오픈소스들이 나오면서 AI 업계 시스템을 빠르게 메꾸고 있기도 합니다.

... 더 보기

 • 

댓글 1 • 저장 131 • 조회 8,357


< 가장 위대한 창작은 ‘경계’에서 탄생한다 >

1. 세상에 없던 새로운 건 모두 한 사람의 상상에서 시작된다. 그 결과인 창작물은 크게 두 가지로 나뉜다.

... 더 보기

동고동락 팀워크



... 더 보기

저는 cross-platform application을 개발하고 있습니다.

... 더 보기

조회 594


DDD와 액터

D

... 더 보기

WEBNORI

wiki.webnori.com

WEBNORI

👉테헤란로 소진언니 인터뷰, 공공기관 MZ의 커리어 고민!

... 더 보기