커리어리 친구들, 요즘 데이터 레이크, 데이크 플렉스(구글) 그리고 델타 레이크 등 그동안 정형적인 데이터를 분석하는 데이터웨어 하우스로 부터 비정형 데이터를 분석하는 새로운 형태의 데이터웨어 하우
커리어리 친구들, 요즘 데이터 레이크, 데이크 플렉스(구글) 그리고 델타 레이크 등 그동안 정형적인 데이터를 분석하는 데이터웨어 하우스로 부터 비정형 데이터를 분석하는 새로운 형태의 데이터웨어 하우스, 즉, 데이터 레이크로 통칭해서 부르는 업무들이 데이터 엔지니어링들이 많이 펼쳐지고 있습니다. 아파치 하둡에 연결하여 빅데이터 분석을 스파크나 빅쿼리를 통해 현업에서 많은 작업하고 계실때, 이때 데이터 엔지니어링에서 가장 전반적인 작업을 하는 것이 바로 데이터 파이프라인을 구축하는 것 입니다. 데이터 파이프라인 구축시 첫번째 알아두어야 할 모호한 ETL, EL, ELT에 대한 개념을 한번 알아보았습니다. 업무에 바쁜신 분들을 위하여 간단히 정리하자면 다음과 같습니다. 🦋 ETL - 정통적인 데이터웨어 하우스에서 자주 사용하는 방식입니다. 원시 데이터를 데이터 소스의 원본 위치에서 추출(Extract)해서 변환한(Transform) 다음 데이터 웨어하우스에 그 데이터를 불러(Load)오는 과정을 말합니다. 🦋 EL - 변환이 필요하지 않은 경우 지난번 블로그에서 말했던 CSV, JSON, Parquet 또는 Avro 파일와 같은 표준 형식으로 추출(Extract)하여 바로 불러(Load)와 워크플로 프로세스로 기본 스토리지에 직접 주입하는 과정을 말합니다. 🦋 ELT - 원시 데이터의 스키마가 유동적일 때 특히 유용합니다. 예를 들어 현지 시간대에 대해 특정 타임스탬프를 수정해야 하는지 여부를 결정하기 위해 실험 데이터셋을 계속 사용할 때 사용합니다. 그외 더욱 더 궁금하거나 데이터 워크플로우나 데이터 파이프라인 구축에 대해 궁금한 분들은 아래의 저의 컬럼을 읽어 주시면 고맙겠습니다.