데이터 레이크가 단순한 유행어가 아님을 증명하는 5가지 사례

데이터 레이크는 본질적으로 기업이 구조화 여부에 관계없이 모든 원시 데이터를 버릴 수 있는 방대한 디지털 덤핑장입니다. 최신 데이터 스택은 이 데이터 저장 및 처리 계층, 즉 데이터 레이크하우스 또는 데이터 웨어하우스 위에 구축되어 데이터를 저장하고 나중에 분석을 위해 변환 및 전송되기 전에 처리할 수 있습니다.


Uber, Nestlé, Accenture, Netflix, Capital One과 같은 거대 기업들이 이러한 디지털 저장소를 사용하여 각자의 분야에서 어떻게 변화를 일으키고 있는지 살펴보세요.


  1. Uber의 데이터 레이크

  • https://www.uber.com/en-KR/blog/ubers-lakehouse-architecture/

Uber를 떠올리면 차량 공유나 음식 배달을 떠올릴 것입니다. 하지만 그 이면에는 최적화된 데이터 레이크 덕분에 비즈니스 의사 결정에 데이터를 사용하는 선두주자이기도 합니다.

  • Apache Hudi를 통한 증분 데이터 처리

    • Uber의 데이터 레이크는 Apache Hudi를 사용해 모든 데이터를 다시 계산하는 대신 신규 또는 업데이트된 데이터만 처리하는 증분 ETL 프로세스를 활성화합니다.

    • 일괄 처리에서 증분 처리로의 전환으로 데이터를 최신 상태로 유지하고 비용을 절감할 수 있습니다.

  • 데이터 품질 및 일관성 향상

    • Uber의 점진적 접근 방식은 전 세계 데이터 센터에 걸쳐 데이터 일관성을 보장합니다.

    • 사전 커밋 검증자는 데이터가 프로덕션에 들어가기 전에 실시간 데이터 품질 검사를 수행하며, 이는 Uber와 같은 데이터 중심 기업에게 매우 중요합니다.

  • 상당한 성능 및 비용 효율성 향상

    • Uber의 경우, 이 접근 방식을 통해 ETL 실행 시간을 최대 82%까지 단축하고 비용을 78% 이상 절감하여 성능과 효율성을 모두 크게 향상시켰습니다.


  1. 네슬레의 데이터 레이크

  • https://www.uber.com/en-KR/blog/ubers-lakehouse-architecture/

네슬레는 세계 최대의 식음료 기업일 뿐만 아니라 데이터 관리 분야의 선두주자이기도 합니다. 네슬레는 딜로이트와 함께 중앙 집중식 데이터 레이크를 구축하여 데이터 전략을 혁신했습니다.

  • 중앙 집중식 데이터 레이크 개발

    • Nestlé USA는 여러 사일로화된 온프레미스 시스템에서 Microsoft Azure 기반 데이터 레이크로 전환하여 중복성을 제거하고 일관성을 개선하며 부서 간 협업을 강화했습니다.

  • 향상된 분석 및 기계 학습

    • 네슬레는 데이터 레이크를 통해 현재 1,500명의 영업 담당자가 매주 사용하는 영업 추천 엔진(SRE)을 구축하여 매출 성장과 효율성을 크게 향상시켰습니다.

  • 실질적인 비즈니스 가치 및 채택

    • 데이터 레이크는 17개의 시스템을 폐기하고 2,000명 이상의 사용자를 온보딩했습니다. 4년 동안 2억 달러의 가치를 창출하여 강력한 데이터 레이크 전략의 효과를 보여주었습니다.


  1. Accenture의 데이터 레이크

  • https://www.accenture.com/cn-en/case-studies/about/modernizing-data-platform

글로벌 전문 서비스 회사인 Accenture는 방대한 데이터 집합을 처리하기 위해 확장 가능하고 안전한 데이터 솔루션이 필요했습니다. 해결책은? 바로 Google Cloud의 클라우드 네이티브 데이터 레이크였습니다.

  • 확장성과 보안을 위한 클라우드 네이티브 데이터 레이크

    • Accenture는 400테라바이트가 넘는 비즈니스 데이터를 Google Cloud에 중앙 집중화함으로써 민감한 고객 정보를 처리하는 데 필수적인 데이터 가시성 및 보안을 강화했습니다.

  • 자동화된 데이터 운영

    • 데이터 수집, 처리 및 워크플로 관리를 위해 Google BigQuery 및 Cloud Composer와 같은 도구를 사용하여 수동 작업을 줄이고 일관성을 개선합니다.

  • 고급 분석 및 비용 효율성을 위한 기반

    • Accenture는 종량제 모델을 통해 비용을 효과적으로 관리하는 동시에 계약 분석 및 이상 징후 탐지를 비롯한 고급 분석과 AI를 지원합니다.


  1. Netflix의 데이터 레이크

  • https://netflixtechblog.com/supporting-diverse-ml-systems-at-netflix-2d2e6b6d205d

넷플릭스에서 스트리밍을 할 때 데이터 레이크는 가장 마지막에 생각하게 되지만, 넷플릭스의 성공에는 데이터 레이크가 핵심입니다. 이 회사는 엔터테인먼트 분야에서 선도적인 머신 러닝 생태계를 구축했습니다.

  • 확장 가능하고 효율적인 데이터 인프라

    • Amazon S3를 사용하는 AWS의 Netflix 데이터 레이크는 매일 페타바이트의 데이터를 처리하여 맞춤형 추천부터 스트리밍 품질 최적화까지 모든 것을 지원합니다.

  • 고급 분석 및 머신 러닝

    • Netflix는 사용자 참여를 예측하고 콘텐츠 전송을 최적화하여 고객 만족도를 향상시키기 위해 Amazon EMR의 Apache Spark 및 Amazon Redshift와 같은 AWS 도구를 사용합니다.

  • 데이터 액세스 및 혁신의 민주화

    • 신뢰할 수 있는 데이터 세트에 대한 셀프 서비스 액세스를 통해 Netflix는 데이터 기반 의사 결정을 촉진하여 혁신과 새로운 기능의 신속한 개발을 가속화합니다.


  1. Capital One의 데이터 레이크

  • https://www.capitalone.com/software/blog/iceberg-tables-lakehouse-architecture/

은행업에서는 데이터 보안과 규정 준수가 매우 중요합니다. AWS에서 중앙 집중식 데이터 레이크로 전환한 Capital One의 사례는 이를 올바르게 수행하는 방법을 보여줍니다.

  • 보안이 강화된 현대화된 데이터 에코시스템

    • Amazon S3의 데이터 레이크로 이전한 Capital One은 사일로화된 데이터를 안전한 단일 플랫폼으로 통합하여 강력한 규정 준수와 거버넌스를 보장할 수 있었습니다.

  • 간소화된 데이터 운영 및 실시간 분석

    • Capital One은 AWS Glue 및 Amazon Kinesis와 같은 AWS 서비스를 사용하여 ETL 프로세스를 간소화하고 실시간 분석을 통해 사기를 탐지하고 신용 위험을 평가하며 고객 경험을 향상시켰습니다.

  • 셀프 서비스 분석으로 팀의 역량 강화

    • 간편한 데이터 액세스를 통해 Capital One의 팀들은 다음과 같이 데이터를 분석할 수 있습니다.


  • source: https://www.montecarlodata.com/blog-5-data-lake-examples/?utm_source=www.bigdatanewsweekly.com&utm_medium=newsletter&utm_campaign=rag-enabled-llms-automate-data-analysis&_bhlid=94f49a712ffcfe0999ad5b282c365ac49d9d3a32

5 Data Lake Examples That Prove They're Not Just A Buzzword

Monte Carlo Data

5 Data Lake Examples That Prove They're Not Just A Buzzword

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 28일 오전 8:01

 • 

저장 9조회 1,377

댓글 0