Delta vs Iceberg vs Hudi 뭐가 다른가요?
최근 세 개의 프로젝트가 삼파전을 하고 있습니다. Delta, Iceberg, Hudi인데요. 모두 오픈소스로 공개된 이 프로젝트들은 중요시하는 부분이 살짝씩은 다른데, 세 기술 모두 Parquet 데이터에 대한 변경이 가능하다는 성질이 있어서 자주 비교되고 있습니다. 기술의 기원과 차이점에 대해 잘 설명해주신 글이 있어 공유합니다. 10년 뒤에는 어떤 프로젝트가 남아있을지 궁금하네요. > 빅데이터 트렌드로부터 이젠 근 15년간 SQL Engine 이라는 이름으로 DBMS 시장을 가져가려던 오픈소스 진영은, 이제 Object Storage 위에 트랜잭션을 보장하는 기술을 앞세워 다시 한 번 그 아성에 도전하고 있다. 이 기술들에는 어떤 것들이 있으며, 과연 전망은 어떠할까? > Delta Lake와 Apache Iceberg는 모두 Apache Parquet 위에서 활용하기 위한 빅데이터 저장 계층 구조로, 데이터 레이크 기능 강화에 초점을 맞추어 개발이 진행되고 있다. 이러한 가장 먼저 관심을 받았던 기술은 Apache Hudi며 AWS EMR 서비스 등에도 가장 먼저 도입되었으나, 현재는 Delta Lake와 Apache Iceberg 두 개의 경쟁으로 굳어지고 있다가 최근에서야 다시 Apache Hudi도 기능을 추가하고 있다. > 정리하면, Delta Lake는 고도화 된 트랜잭션 관리에, Apache Iceberg는 데이터 관리와 구조화에, Apache Hudi는 지속적인 데이터 변경에 대응한다는 점에서 차별점이 있으나, 그 외에 데이터의 버전 관리라는 측면에서는 아직은 지속적으로 경쟁하는 기술이라 결론내릴 수 있다. http://cloudinsight.net/data/dml-on-object-storage-%EC%98%81%EC%97%AD%EC%9D%98-%EA%B2%BD%EC%9F%81/