Big Data is Dead. 빅데이터는 죽었다

구글에서 BigQuery를 개발한 조던 티가니님이 작성한 글입니다.


  • 지난 10년간 데이터에서 Action 가능한 인사이트를 얻는데 어려움을 겪는 이유 : 데이터의 크기

    • 새로운 도구를 도입하고 마이그레이션해도 여전히 어려움을 겪는 것을 알게 됨

  • 놀라운 사실 : 빅쿼리를 사용하는 대부분의 사람들이 실제로 빅 데이터를 가지고 있지 않음

    • 이 글에선 빅데이터의 시대가 끝났다는 주장을 펼칠 것. 그동안은 잘 달려왔지만 데이터 크기에 대한 걱정은 그만두고 더 나은 의사 결정을 내리는데 데이터를 어떻게 활용할 것인지를 집중해야 함

    • 대부분 그렇게 많은 데이터를 가지고 있지 않음

  • 스토리지와 컴퓨팅을 분리하는 Storage Bias

    • S3, GCS 같은 확장 가능한 Object Storage가 등장하며 데이터베이스 구축 방식에 대한 제약이 완화됨

    • 실제로 데이터 크기가 컴퓨팅 크기보다 빠르게 증가함

    • 데이터는 시간이 흐르면서 계속 쌓이지만, 컴퓨팅은 최근 데이터 위주로 분석해서 크게 들지 않음. 오래된 데이터를 스캔하는 것은 꽤 낭비

    • 확장 가능한 Object Storage를 사용하면 예상한 것보다 더 적은 컴퓨팅을 사용할 수 있고, 심지어 분산 처리를 사용할 필요가 없을 수도 있음

  • 워크로드 크기가 전체 데이터 크기보다 작음

    • 분석 워크로드에서 처리되는 데이터 양은 훨씬 적음. 대시보드는 집계 데이터 위주로 사용하고, 사람들은 지난 시간, 지난 날, 지난 주 데이터를 봄

    • 데이터 규모가 큰 고객은 대량의 데이터를 쿼리하는 경우가 거의 없음

    • 쿼리는 대부분 보고서를 생성하기 위함이고 성능은 우선 순위가 아니였음. 월요일 아침 보고서를 실행하는 쿼리가 있었지만 일주일 동안 실행한 쿼리 중 극히 일부

  • 빅데이터 분야는 계속 후퇴하고 있음

    • 2004년 맵리듀스 백서가 작성되었을 때 데이터 워크로드가 하나의 머신에 맞지 않는 경우가 흔했음. 이 땐 인스턴스 크기가 2GB Ram.

  • 데이터는 책임

    • 빅데이터에 대한 또 다른 정의는 데이터를 보관하는데 드는 비용이 버려야할 것을 파악하는데 드는 비용보다 적은 경우. 데이터가 필요해서가 아닌 삭제하는 것을 귀찮아하지 않기 때문임. 대부분 회사들은 어떤 데이터가 있는지, 정리하는 것이 안전한지 모르는 늪임

    • GDPR, CCPA 규정에 따라 특정 데이터의 사용 내역을 추적해야 하고, 일정 기간 내에 삭제해야 할 수도 있음.

    • 데이터도 관리되지 않으면 의미를 까먹거나 과거 데이터 문제를 까먹을 수 있음


https://motherduck.com/blog/big-data-is-dead/


Big Data is Dead

MotherDuck

Big Data is Dead

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 29일 오후 2:22

댓글 1