물의 흐름으로 누구나 쉽게 이해하는 데이터 파이프라인

제가 데이터 파이프라인을 설명할 때 자주 사용하는 비유로 물이 흐르는 상수도를 떠올리는 것입니다. 물이 수도관을 통해 각 가정에 공급되는 과정과 데이터가 파이프라인을 통해 필요한 곳으로 이동하는 과정을 비교해보면 이해가 더 쉬워질 것입니다.


  1. 수원지: 원천 데이터 (데이터 레이크)

  • 데이터 파이프라인의 첫 출발점은 '수원지'에 해당하는 원천 데이터입니다. 수원지는 다양한 데이터 소스를 의미합니다. 원천 데이터는 아직 정제되지 않았고, 다양한 형태와 크기로 존재할 수 있습니다. 이 데이터는 개발 단계에서 생성되거나 여러 외부 시스템에서 수집됩니다.


  1. 상수도: 데이터 웨어하우스

  • 데이터 웨어하우스는 정제된 다양한 형태의 데이터를 보관하는 저장소로, 물이 상수도에서 정수와 여과 과정을 거치는 것처럼 원천 데이터는 정제를 거쳐 '데이터 웨어하우스'로 모입니다.

  • 따라서 수원지에 데이터가 어느정도 오염(중복되어 있거나 잘못 입력 된 데이터, 혹은 누락)이 있더라도 미리 정의한 비즈니스 스키마에 따라 필터가 되기 때문에 이 과정에서 상당수 사용 가능한 데이터로 변환 됩니다.


  1. 수도관: 데이터 파이프라인

  • 수도관은 데이터를 필요한 곳으로 보내는 경로입니다. 이 과정에서 데이터를 정제하고 변환하여 가정집으로 안전하게 보내기 위한 여러 단계가 이루어집니다. 즉, 데이터 파이프라인은 데이터를 정제하고, 여과하며, 필요한 형식으로 변환하는 일련의 과정을 담당합니다. 이 단계에서 데이터는 다양한 필터링, 집계, 변환 등의 작업을 거쳐 최종 사용자에게 적합한 형태로 바뀝니다.


  1. 가정집: 데이터 사용처 (데이터 마트)

  • 물이 수도관을 통해 가정집에 도달하듯이, 최종 사용자는 필요한 데이터를 활용하게 됩니다. 이때의 데이터는 이미 정제되고 가공된 상태로, 사용자는 이 데이터를 분석하거나 보고서에 활용하는 등의 작업을 수행합니다.


전체 흐름

  • 수원지에서 물을 모아 상수도를 통해 정수한 후 각 가정집으로 물을 보내는 과정은, 데이터가 원천에서 수집되어 데이터 웨어하우스로 모이고, 데이터 파이프라인을 통해 정제되고 변환되어 최종 사용처로 전달되는 과정과 매우 흡사합니다. 이 비유를 통해 데이터 파이프라인의 복잡한 과정을 물의 흐름처럼 쉽게 이해할 수 있습니다.


데이터는 마치 물처럼, 필요한 곳으로 안전하고 깨끗하게 전달되어야 합니다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 9일 오후 2:45

댓글 3

  • 안녕하세요. 데이터 흐름에 대해 쉽게 설명해 주셔서 감사합니다 :) 중간에 언급하신 데이터웨어하우스와 데이터레이크의 개념은 큰 차이가 없다라고 생각되어지는데, 맞을까요?

    @박준호 안녕하세요! 읽어주셔서 감사합니다. 설명이 조금 부족했던 것 같습니다. 데이터레이크는 데이터들을 모으는데 집중되어 있고, 데이터웨어하우스는 분석 목적에 맞게 가공된 데이터로 이해해주시면 좋을 것 같습니다. - 데이터레이크 : 비정제된 원본 데이터 (자연 그대로의 물) - 데이터웨어하우스 : 정제된 구조화된 데이터 (정수된 물)