Community

오픈소스기반의 Big Data Platform 구축-Kudu&Impala

온프렘 또는 프라이빗 클라우드 환경 형태의 데이터플랫폼을 구축하고자 하는 분들에게 유용한 글이 될 거 같습니다. Open Source 기반의 OLAP workeloads에 최적화된 분산 Storage인 Apache Kudu와 분산 Computing 환경을 제공하는 MPP(Massively Parallel Processing) SQL Query engine인 Apache Impala 환경 구축 내용입니다. 🍉 Apache Kudu(https://kudu.apache.org) - Cloudera에서 C++ 기반으로 개발되었으며, Apache 재단에서 관리하는 Open Source - OLTP와 OLAP 특징을 결합한 HTAP(Hybrid Transactional/Analytic Processing) 구조 - RDBMS와 유사한 구조화된 데이터 모델(Column/Primary Key Design/Partitioning 등) - Apache Impala와 최적의 성능 조합을 이루며, Apache NiFi 및 Apache Spark와의 통합 지원 - 장애 감지 및 복구 : 복제본에 장애가 발생한 경우, 사용 가능한 다른 Tablet 서버로 자동 복제 🍉 Apache Impala(https://impala.apache.org) - Cloudera에서 C++, Java 기반으로 개발되었으며, Apache 재단에서 관리하는 Open Source - HDFS 및 Kudu Storage 환경의 대용량 Data를 처리할 수 있는 고성능 SQL Query engine - in-Memory 기반의 Data 처리 - SELECT, Joins, and Aggregate Functions등을 포함한 SQL (HiveQL) syntax 지원 - JDBC/ODBC driver 제공 관심있는 분들은 원문의 상세 내용을 참고해주시기 바랍니다~ 🌝

알림

알림이 없습니다