Big Data is Dead
MotherDuck
구글에서 BigQuery를 개발한 조던 티가니님이 작성한 글입니다.
지난 10년간 데이터에서 Action 가능한 인사이트를 얻는데 어려움을 겪는 이유 : 데이터의 크기
새로운 도구를 도입하고 마이그레이션해도 여전히 어려움을 겪는 것을 알게 됨
놀라운 사실 : 빅쿼리를 사용하는 대부분의 사람들이 실제로 빅 데이터를 가지고 있지 않음
이 글에선 빅데이터의 시대가 끝났다는 주장을 펼칠 것. 그동안은 잘 달려왔지만 데이터 크기에 대한 걱정은 그만두고 더 나은 의사 결정을 내리는데 데이터를 어떻게 활용할 것인지를 집중해야 함
대부분 그렇게 많은 데이터를 가지고 있지 않음
스토리지와 컴퓨팅을 분리하는 Storage Bias
S3, GCS 같은 확장 가능한 Object Storage가 등장하며 데이터베이스 구축 방식에 대한 제약이 완화됨
실제로 데이터 크기가 컴퓨팅 크기보다 빠르게 증가함
데이터는 시간이 흐르면서 계속 쌓이지만, 컴퓨팅은 최근 데이터 위주로 분석해서 크게 들지 않음. 오래된 데이터를 스캔하는 것은 꽤 낭비
확장 가능한 Object Storage를 사용하면 예상한 것보다 더 적은 컴퓨팅을 사용할 수 있고, 심지어 분산 처리를 사용할 필요가 없을 수도 있음
워크로드 크기가 전체 데이터 크기보다 작음
분석 워크로드에서 처리되는 데이터 양은 훨씬 적음. 대시보드는 집계 데이터 위주로 사용하고, 사람들은 지난 시간, 지난 날, 지난 주 데이터를 봄
데이터 규모가 큰 고객은 대량의 데이터를 쿼리하는 경우가 거의 없음
쿼리는 대부분 보고서를 생성하기 위함이고 성능은 우선 순위가 아니였음. 월요일 아침 보고서를 실행하는 쿼리가 있었지만 일주일 동안 실행한 쿼리 중 극히 일부
빅데이터 분야는 계속 후퇴하고 있음
2004년 맵리듀스 백서가 작성되었을 때 데이터 워크로드가 하나의 머신에 맞지 않는 경우가 흔했음. 이 땐 인스턴스 크기가 2GB Ram.
데이터는 책임
빅데이터에 대한 또 다른 정의는 데이터를 보관하는데 드는 비용이 버려야할 것을 파악하는데 드는 비용보다 적은 경우. 데이터가 필요해서가 아닌 삭제하는 것을 귀찮아하지 않기 때문임. 대부분 회사들은 어떤 데이터가 있는지, 정리하는 것이 안전한지 모르는 늪임
GDPR, CCPA 규정에 따라 특정 데이터의 사용 내역을 추적해야 하고, 일정 기간 내에 삭제해야 할 수도 있음.
데이터도 관리되지 않으면 의미를 까먹거나 과거 데이터 문제를 까먹을 수 있음
https://motherduck.com/blog/big-data-is-dead/
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 4월 29일 오후 2:22
duckdb 만든분 글인가보군요 안그래도 관심있게 보고있었는데 잘읽었습니다
Cursor와 함께라면, 더이상 에디터는 단순한 입력 도구가 아닌
... 더 보기퍼플렉시티는 세계 최대 검색 엔진 업체인 구글에 대항하는 AI 기반 검색 엔진으로 알려진 스타트업이다. 실시간으로 웹 기반 정보를 활용해 이용자 질문에 답변하는 AI 검색 서비스를 제공한다. 최근 기업가치 140억 달러로 투자 유치를 마쳐 인수가 성사된다면 애플 역대 최대 인수가 될 전망이다.
... 더 보기•
조회 177
1. 오랜만에 만난 사람은 늘 어색하다. 뭔가 말을 건네야 한다. 인사 없이 지나가긴 애매하다. 하지만 대화 주제는 많지 않다. 날씨, 뉴스 얘기 몇 마디는 어떻게 해본다. 하지만 가장 어려운 건 마무리다.
구성원들이 의욕적으로 협력하고 열정과 에너지가 느껴지는 팀과 조직이 있는 반면, 서로의 일에 무관심하고 타성과 매너리즘에 빠져 무기력하게 하루를 보내는 조직이 있다. 이렇게 차이가 나는 이유는 뭘까? 그것은 근본적으로 팀과 조직을 이끌어가는 리더의 에너지 상태가 다르기 때문이다.
... 더 보기공식적으로 뭐하는 회사인지는 모르지만 일단 100억달러 기업가치
... 더 보기국내 최초 ‘창고형 약국’이 성남에 문을 열며 약국 유통 구조에 변화를 일으키고 있습니다💊
... 더 보기