Data Catalogs Vs. Metadata Catalogs: What’s the Difference?
Datanami
데이터 카탈로그와 메타데이터 카탈로그는 거의 동일한 이름 등 몇 가지 유사점을 공유합니다. 그리고 몇 가지 공통된 기능도 있지만, 빅 데이터 실무자가 알아야 할 두 엔티티 사이에는 중요한 차이점도 있습니다.
< 메타데이터 카탈로그 >
개념
메타스토어 = 기술데이터 카탈로그
데이터 레이크 또는 레이크하우스에 저장한 데이터를 설명하는 기술로 메타데이터를 표 형식의 구조로 저장하는 곳으로 정의
메타스토어: Apache Hive 테이블의 내용을 설명하는 메타데이터의 중앙 저장소인 Hive 메타스토어
Hive: Hadoop 사용자가 MapReduce와 달리 기존의 SQL을 사용해 HDFS 기반 데이터를 쿼리할 수 있게 해주는 관계형 프레임워크
최신 메타데이터 카탈로그 기술들
Apache Iceberg
오픈소스 테이블 포맷.
sql 쿼리 엔진에 대해 파일 포맷, 파일 스토리지 레이아웃 추상화
spark 용 라이브러리를 사용해 spark sql 로 iceberg table 을 관리
스냅샷 및 타임트래블 제공
하이브와 다른 부분은 메타데이터가 파일로 추적이 된다는 점
하이브에 대한 의존성이 없어지고, Hdfs를 보관장소로 이용 가능
Project Nessie
Dremio의 엔지니어가 개발
Hive, Dremio, Spark, AWS Athena(Presto 기반) 등 다양한 오픈 및 상용 데이터 엔진에 대한 데이터 액세스를 중개하는 '트랜잭션 카탈로그',
교차 테이블 트랜잭션 및 가시성, 개방형 데이터 레이크 접근 방식, Apache Iceberg 테이블과 함께 작동, Docker 이미지 또는 Kubernetes에서 실행
데이터브릭스의 Unity 카탈로그
유저관리와 메타스토어로 구성되며, workspace와 통신
중앙 집중식 액세스 제어, 감사, 계보 및 데이터 검색 기능을 제공.
데이터 및 AI에 대한 통합 관측, 단일 권한 모델, AI 기반 모니터링 및 관측 기능, 개방형 접근성 제공
스노우플레이크의 Polaris
개방형 데이터 카탈로그 서비스로 아이스버그 지원
아마존웹서비스(AWS), 컨플루언트(Confluent), 드레미오(Dremio), 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), 세일즈포스(Salesforce)와 같은 주요 클라우드 서비스 플랫폼과 상호 호환
트렌드
Hive와 Hive메타스토어 => Apache Iceberg, Apache Hudi, 데이터브릭스 델타 테이블 등
< 데이터 카탈로그 >
개념
데이터 생산자와 데이터 소비자가 회사 데이터 자산 전반에서 데이터에 대한 액세스를 찾고, 관리하고, 제어할 수 있게 해주는 단일 데이터 소스 역할
데이터 관리 및 검색 도구와 결합된 메타데이터 모음으로, 분석가와 기타 데이터 사용자가 필요한 데이터를 찾는 데 도움을 주고, 사용 가능한 데이터의 인벤토리 역할을 하며, 데이터의 용도에 대한 적합성을 평가하는 데 필요한 정보를 제공
사용자가 조직에서 소유하고 있을 수 있는 데이터를 검색할 수 있는 일부 기능이 포함되어 있으므로 데이터 카탈로그에는 데이터 검색 구성 요소가 있는 경우가 많음
엔터프라이즈 데이터 카탈로그:데이터 자산을 추적하는 데 도움이 되는 메타데이터를 수집하는 데 전적으로 관여
데이터 관리, 검색, 데이터 인벤토리, 데이터 평가 등
종류
Alation의 데이터 카탈로그
액세스 제어 기능과 데이터 계보 추적 및 거버넌스 기능도 포함
Collibra의 데이터 인텔리전스 플랫폼
데이터 거버넌스 및 액세스 제어 기능 -> 발전: 데이터 거버넌스 및 액세스 제어 기능 + 데이터 카탈로그, 데이터 검색
Atlan의 카탈로그
다양한 데이터 세트에서 생성된 메타데이터를 통합하고 메타데이터 '컨트롤 플레인'을 통해 동기화하여 비지니스 지표와 일치
< 메타데이터 카탈로그 vs 데이터 카탈로그 >
정책 정의 및 관리, 시행
메타데이터 카탈로그: 사용자가 데이터 액세스와 관련된 비즈니스 정책을 설정할 수 있는 기능 없음
시행 측면에서는 메타데이터 카탈로그에 의존
확장성과 성능 측면에서 오픈 테이블 형식의 메타데이터 카탈로그 접근 방식 대세
데이터브릭스의 Unity카탈로그
기술 메타데이터에 대한 낮은 수준의 제어 + 데이터 거버넌스, 액세스 제어, 감사 및 계보와 같은 높은 수준의 기능 제공
엔터터프라이즈 데이터 카탈로그 공급업체와 경쟁
source: https://www.datanami.com/2024/07/03/data-catalogs-vs-metadata-catalogs-whats-the-difference/
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 7월 4일 오전 7:39