5 Data Lake Examples That Prove They're Not Just A Buzzword
Monte Carlo Data
데이터 레이크는 본질적으로 기업이 구조화 여부에 관계없이 모든 원시 데이터를 버릴 수 있는 방대한 디지털 덤핑장입니다. 최신 데이터 스택은 이 데이터 저장 및 처리 계층, 즉 데이터 레이크하우스 또는 데이터 웨어하우스 위에 구축되어 데이터를 저장하고 나중에 분석을 위해 변환 및 전송되기 전에 처리할 수 있습니다.
Uber, Nestlé, Accenture, Netflix, Capital One과 같은 거대 기업들이 이러한 디지털 저장소를 사용하여 각자의 분야에서 어떻게 변화를 일으키고 있는지 살펴보세요.
Uber의 데이터 레이크
https://www.uber.com/en-KR/blog/ubers-lakehouse-architecture/
Uber를 떠올리면 차량 공유나 음식 배달을 떠올릴 것입니다. 하지만 그 이면에는 최적화된 데이터 레이크 덕분에 비즈니스 의사 결정에 데이터를 사용하는 선두주자이기도 합니다.
Apache Hudi를 통한 증분 데이터 처리
Uber의 데이터 레이크는 Apache Hudi를 사용해 모든 데이터를 다시 계산하는 대신 신규 또는 업데이트된 데이터만 처리하는 증분 ETL 프로세스를 활성화합니다.
일괄 처리에서 증분 처리로의 전환으로 데이터를 최신 상태로 유지하고 비용을 절감할 수 있습니다.
데이터 품질 및 일관성 향상
Uber의 점진적 접근 방식은 전 세계 데이터 센터에 걸쳐 데이터 일관성을 보장합니다.
사전 커밋 검증자는 데이터가 프로덕션에 들어가기 전에 실시간 데이터 품질 검사를 수행하며, 이는 Uber와 같은 데이터 중심 기업에게 매우 중요합니다.
상당한 성능 및 비용 효율성 향상
Uber의 경우, 이 접근 방식을 통해 ETL 실행 시간을 최대 82%까지 단축하고 비용을 78% 이상 절감하여 성능과 효율성을 모두 크게 향상시켰습니다.
네슬레의 데이터 레이크
https://www.uber.com/en-KR/blog/ubers-lakehouse-architecture/
네슬레는 세계 최대의 식음료 기업일 뿐만 아니라 데이터 관리 분야의 선두주자이기도 합니다. 네슬레는 딜로이트와 함께 중앙 집중식 데이터 레이크를 구축하여 데이터 전략을 혁신했습니다.
중앙 집중식 데이터 레이크 개발
Nestlé USA는 여러 사일로화된 온프레미스 시스템에서 Microsoft Azure 기반 데이터 레이크로 전환하여 중복성을 제거하고 일관성을 개선하며 부서 간 협업을 강화했습니다.
향상된 분석 및 기계 학습
네슬레는 데이터 레이크를 통해 현재 1,500명의 영업 담당자가 매주 사용하는 영업 추천 엔진(SRE)을 구축하여 매출 성장과 효율성을 크게 향상시켰습니다.
실질적인 비즈니스 가치 및 채택
데이터 레이크는 17개의 시스템을 폐기하고 2,000명 이상의 사용자를 온보딩했습니다. 4년 동안 2억 달러의 가치를 창출하여 강력한 데이터 레이크 전략의 효과를 보여주었습니다.
Accenture의 데이터 레이크
https://www.accenture.com/cn-en/case-studies/about/modernizing-data-platform
글로벌 전문 서비스 회사인 Accenture는 방대한 데이터 집합을 처리하기 위해 확장 가능하고 안전한 데이터 솔루션이 필요했습니다. 해결책은? 바로 Google Cloud의 클라우드 네이티브 데이터 레이크였습니다.
확장성과 보안을 위한 클라우드 네이티브 데이터 레이크
Accenture는 400테라바이트가 넘는 비즈니스 데이터를 Google Cloud에 중앙 집중화함으로써 민감한 고객 정보를 처리하는 데 필수적인 데이터 가시성 및 보안을 강화했습니다.
자동화된 데이터 운영
데이터 수집, 처리 및 워크플로 관리를 위해 Google BigQuery 및 Cloud Composer와 같은 도구를 사용하여 수동 작업을 줄이고 일관성을 개선합니다.
고급 분석 및 비용 효율성을 위한 기반
Accenture는 종량제 모델을 통해 비용을 효과적으로 관리하는 동시에 계약 분석 및 이상 징후 탐지를 비롯한 고급 분석과 AI를 지원합니다.
Netflix의 데이터 레이크
https://netflixtechblog.com/supporting-diverse-ml-systems-at-netflix-2d2e6b6d205d
넷플릭스에서 스트리밍을 할 때 데이터 레이크는 가장 마지막에 생각하게 되지만, 넷플릭스의 성공에는 데이터 레이크가 핵심입니다. 이 회사는 엔터테인먼트 분야에서 선도적인 머신 러닝 생태계를 구축했습니다.
확장 가능하고 효율적인 데이터 인프라
Amazon S3를 사용하는 AWS의 Netflix 데이터 레이크는 매일 페타바이트의 데이터를 처리하여 맞춤형 추천부터 스트리밍 품질 최적화까지 모든 것을 지원합니다.
고급 분석 및 머신 러닝
Netflix는 사용자 참여를 예측하고 콘텐츠 전송을 최적화하여 고객 만족도를 향상시키기 위해 Amazon EMR의 Apache Spark 및 Amazon Redshift와 같은 AWS 도구를 사용합니다.
데이터 액세스 및 혁신의 민주화
신뢰할 수 있는 데이터 세트에 대한 셀프 서비스 액세스를 통해 Netflix는 데이터 기반 의사 결정을 촉진하여 혁신과 새로운 기능의 신속한 개발을 가속화합니다.
Capital One의 데이터 레이크
https://www.capitalone.com/software/blog/iceberg-tables-lakehouse-architecture/
은행업에서는 데이터 보안과 규정 준수가 매우 중요합니다. AWS에서 중앙 집중식 데이터 레이크로 전환한 Capital One의 사례는 이를 올바르게 수행하는 방법을 보여줍니다.
보안이 강화된 현대화된 데이터 에코시스템
Amazon S3의 데이터 레이크로 이전한 Capital One은 사일로화된 데이터를 안전한 단일 플랫폼으로 통합하여 강력한 규정 준수와 거버넌스를 보장할 수 있었습니다.
간소화된 데이터 운영 및 실시간 분석
Capital One은 AWS Glue 및 Amazon Kinesis와 같은 AWS 서비스를 사용하여 ETL 프로세스를 간소화하고 실시간 분석을 통해 사기를 탐지하고 신용 위험을 평가하며 고객 경험을 향상시켰습니다.
셀프 서비스 분석으로 팀의 역량 강화
간편한 데이터 액세스를 통해 Capital One의 팀들은 다음과 같이 데이터를 분석할 수 있습니다.
source: https://www.montecarlodata.com/blog-5-data-lake-examples/?utm_source=www.bigdatanewsweekly.com&utm_medium=newsletter&utm_campaign=rag-enabled-llms-automate-data-analysis&_bhlid=94f49a712ffcfe0999ad5b282c365ac49d9d3a32
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 28일 오전 8:01