제가 데이터 파이프라인을 설명할 때 자주 사용하는 비유로 물이 흐르는 상수도를 떠올리는 것입니다. 물이 수도관을 통해 각 가정에 공급되는 과정과 데이터가 파이프라인을 통해 필요한 곳으로 이동하는 과정을 비교해보면 이해가 더 쉬워질 것입니다.
수원지: 원천 데이터 (데이터 레이크)
데이터 파이프라인의 첫 출발점은 '수원지'에 해당하는 원천 데이터입니다. 수원지는 다양한 데이터 소스를 의미합니다. 원천 데이터는 아직 정제되지 않았고, 다양한 형태와 크기로 존재할 수 있습니다. 이 데이터는 개발 단계에서 생성되거나 여러 외부 시스템에서 수집됩니다.
상수도: 데이터 웨어하우스
데이터 웨어하우스는 정제된 다양한 형태의 데이터를 보관하는 저장소로, 물이 상수도에서 정수와 여과 과정을 거치는 것처럼 원천 데이터는 정제를 거쳐 '데이터 웨어하우스'로 모입니다.
따라서 수원지에 데이터가 어느정도 오염(중복되어 있거나 잘못 입력 된 데이터, 혹은 누락)이 있더라도 미리 정의한 비즈니스 스키마에 따라 필터가 되기 때문에 이 과정에서 상당수 사용 가능한 데이터로 변환 됩니다.
수도관: 데이터 파이프라인
수도관은 데이터를 필요한 곳으로 보내는 경로입니다. 이 과정에서 데이터를 정제하고 변환하여 가정집으로 안전하게 보내기 위한 여러 단계가 이루어집니다. 즉, 데이터 파이프라인은 데이터를 정제하고, 여과하며, 필요한 형식으로 변환하는 일련의 과정을 담당합니다. 이 단계에서 데이터는 다양한 필터링, 집계, 변환 등의 작업을 거쳐 최종 사용자에게 적합한 형태로 바뀝니다.
가정집: 데이터 사용처 (데이터 마트)
물이 수도관을 통해 가정집에 도달하듯이, 최종 사용자는 필요한 데이터를 활용하게 됩니다. 이때의 데이터는 이미 정제되고 가공된 상태로, 사용자는 이 데이터를 분석하거나 보고서에 활용하는 등의 작업을 수행합니다.
전체 흐름
수원지에서 물을 모아 상수도를 통해 정수한 후 각 가정집으로 물을 보내는 과정은, 데이터가 원천에서 수집되어 데이터 웨어하우스로 모이고, 데이터 파이프라인을 통해 정제되고 변환되어 최종 사용처로 전달되는 과정과 매우 흡사합니다. 이 비유를 통해 데이터 파이프라인의 복잡한 과정을 물의 흐름처럼 쉽게 이해할 수 있습니다.
데이터는 마치 물처럼, 필요한 곳으로 안전하고 깨끗하게 전달되어야 합니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 9일 오후 2:45
안녕하세요. 데이터 흐름에 대해 쉽게 설명해 주셔서 감사합니다 :) 중간에 언급하신 데이터웨어하우스와 데이터레이크의 개념은 큰 차이가 없다라고 생각되어지는데, 맞을까요?
@박준호 안녕하세요! 읽어주셔서 감사합니다. 설명이 조금 부족했던 것 같습니다. 데이터레이크는 데이터들을 모으는데 집중되어 있고, 데이터웨어하우스는 분석 목적에 맞게 가공된 데이터로 이해해주시면 좋을 것 같습니다. - 데이터레이크 : 비정제된 원본 데이터 (자연 그대로의 물) - 데이터웨어하우스 : 정제된 구조화된 데이터 (정수된 물)
@박준호 답변 감사합니다 ^^