데이터 카탈로그 vs 메타데이터 카탈로그

데이터 카탈로그와 메타데이터 카탈로그는 거의 동일한 이름 등 몇 가지 유사점을 공유합니다. 그리고 몇 가지 공통된 기능도 있지만, 빅 데이터 실무자가 알아야 할 두 엔티티 사이에는 중요한 차이점도 있습니다.


< 메타데이터 카탈로그 >

  • 개념

    • 메타스토어 = 기술데이터 카탈로그

    • 데이터 레이크 또는 레이크하우스에 저장한 데이터를 설명하는 기술로 메타데이터를 표 형식의 구조로 저장하는 곳으로 정의

    • 메타스토어: Apache Hive 테이블의 내용을 설명하는 메타데이터의 중앙 저장소인 Hive 메타스토어

    • Hive: Hadoop 사용자가 MapReduce와 달리 기존의 SQL을 사용해 HDFS 기반 데이터를 쿼리할 수 있게 해주는 관계형 프레임워크

  • 최신 메타데이터 카탈로그 기술들

    • Apache Iceberg

      • 오픈소스 테이블 포맷.

      • sql 쿼리 엔진에 대해 파일 포맷, 파일 스토리지 레이아웃 추상화

      • spark 용 라이브러리를 사용해 spark sql 로 iceberg table 을 관리

      • 스냅샷 및 타임트래블 제공

      • 하이브와 다른 부분은 메타데이터가 파일로 추적이 된다는 점

      • 하이브에 대한 의존성이 없어지고, Hdfs를 보관장소로 이용 가능

    • Project Nessie

      • Dremio의 엔지니어가 개발

      • Hive, Dremio, Spark, AWS Athena(Presto 기반) 등 다양한 오픈 및 상용 데이터 엔진에 대한 데이터 액세스를 중개하는 '트랜잭션 카탈로그',

      • 교차 테이블 트랜잭션 및 가시성, 개방형 데이터 레이크 접근 방식, Apache Iceberg 테이블과 함께 작동, Docker 이미지 또는 Kubernetes에서 실행

    • 데이터브릭스의 Unity 카탈로그

      • 유저관리와 메타스토어로 구성되며, workspace와 통신

      • 중앙 집중식 액세스 제어, 감사, 계보 및 데이터 검색 기능을 제공.

      • 데이터 및 AI에 대한 통합 관측, 단일 권한 모델, AI 기반 모니터링 및 관측 기능, 개방형 접근성 제공

    • 스노우플레이크의 Polaris

      • 개방형 데이터 카탈로그 서비스로 아이스버그 지원

      • 아마존웹서비스(AWS), 컨플루언트(Confluent), 드레미오(Dremio), 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), 세일즈포스(Salesforce)와 같은 주요 클라우드 서비스 플랫폼과 상호 호환

  • 트렌드

    • Hive와 Hive메타스토어 => Apache Iceberg, Apache Hudi, 데이터브릭스 델타 테이블 등


< 데이터 카탈로그 >

  • 개념

    • 데이터 생산자와 데이터 소비자가 회사 데이터 자산 전반에서 데이터에 대한 액세스를 찾고, 관리하고, 제어할 수 있게 해주는 단일 데이터 소스 역할

    • 데이터 관리 및 검색 도구와 결합된 메타데이터 모음으로, 분석가와 기타 데이터 사용자가 필요한 데이터를 찾는 데 도움을 주고, 사용 가능한 데이터의 인벤토리 역할을 하며, 데이터의 용도에 대한 적합성을 평가하는 데 필요한 정보를 제공

    • 사용자가 조직에서 소유하고 있을 수 있는 데이터를 검색할 수 있는 일부 기능이 포함되어 있으므로 데이터 카탈로그에는 데이터 검색 구성 요소가 있는 경우가 많음

    • 엔터프라이즈 데이터 카탈로그:데이터 자산을 추적하는 데 도움이 되는 메타데이터를 수집하는 데 전적으로 관여

    • 데이터 관리, 검색, 데이터 인벤토리, 데이터 평가 등

  • 종류

    • Alation의 데이터 카탈로그

      • 액세스 제어 기능과 데이터 계보 추적 및 거버넌스 기능도 포함

    • Collibra의 데이터 인텔리전스 플랫폼

      • 데이터 거버넌스 및 액세스 제어 기능 -> 발전: 데이터 거버넌스 및 액세스 제어 기능 + 데이터 카탈로그, 데이터 검색

    • Atlan의 카탈로그

      • 다양한 데이터 세트에서 생성된 메타데이터를 통합하고 메타데이터 '컨트롤 플레인'을 통해 동기화하여 비지니스 지표와 일치


< 메타데이터 카탈로그 vs 데이터 카탈로그 >

  • 정책 정의 및 관리, 시행

    • 메타데이터 카탈로그: 사용자가 데이터 액세스와 관련된 비즈니스 정책을 설정할 수 있는 기능 없음

    • 시행 측면에서는 메타데이터 카탈로그에 의존

  • 확장성과 성능 측면에서 오픈 테이블 형식의 메타데이터 카탈로그 접근 방식 대세

  • 데이터브릭스의 Unity카탈로그

    • 기술 메타데이터에 대한 낮은 수준의 제어 + 데이터 거버넌스, 액세스 제어, 감사 및 계보와 같은 높은 수준의 기능 제공

    • 엔터터프라이즈 데이터 카탈로그 공급업체와 경쟁


  • source: https://www.datanami.com/2024/07/03/data-catalogs-vs-metadata-catalogs-whats-the-difference/

Data Catalogs Vs. Metadata Catalogs: What’s the Difference?

Datanami

Data Catalogs Vs. Metadata Catalogs: What’s the Difference?

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 7월 4일 오전 7:39

댓글 0