한기용

UpZen 창업자 대표 & 산호세 주립대 교수

데이터 이야기 번외편 - 가치있는 데이터의 크기는?

지난 몇 년 동안 데이터 컨설팅을 하면서 느낀 점 중의 하나는 데이터를 파는 회사임에도 불구하고 정말 가치를 주는 데이터의 크기를 알고 있는 회사들은 많지 않았다는 점이다. "우리 DB에 몇 개의 레코드가 있어요"하는 거는 쉽게 이야기할 수 있는 거지만 그중 정말로 고객에 의해 사용되는 레코드가 몇 개이고 레코드들을 중요도로 순위를 정할 수 있냐(일종의 tiering)고 물어보면 그걸 잘 대답할 수 있는 곳은 많지 않았다. 그냥 "우리는 이렇게 많은 데이터가 있고 이걸 문제없이 빠르게 처리하고 싶어요" 이게 보통 듣는 컨설팅 관련 요청이다.

사실 맞는 질문은 우리가 갖고 있는 데이터 중 정말 의미있는 것들이 무엇이고 그 비중이 얼마나 되는지 먼저 보는 것이 아닐까? 바쁘다보니 관성적으로 일을 하는 것도 있고 이런 데이터의 크기를 회사의 가치로 착각(?)하는 경우도 있었다.

데이터도 생명체처럼 라이프 사이클이 있다. 즉 어느 시점부터는 가치가 떨어지기 시작하고 최종적으로는 청소가 필요하다. 또한 이런 청소를 게을리하면 중복부터 시작해서 저품질의 데이터등등 여러 이슈가 발생하면서 데이터의 크기를 증가시키고 이는 데이터를 유지하는데 큰 수고와 비용이 나가는 것으로 이어진다. 어느 시점에는 시스템이 스케일하지 않는다. 관계형 데이터베이스부터 깨져 나가기 시작하며 이때부터 데이터 웨어하우스를 도입하는데 (보통 이 시점이 내가 컨설팅을 하는 시점이다) 데이터의 크기가 크면 어떤 문제도 쉽지 않다.

많은 경우 이런 문제가 얼마나 심각한지 잘 모르는데 대부분의 이유는 데이터의 품질을 나타내는 지표가 없었기 때문이었다. 예를 들어 100M개의 레코드가 있지만 그중 실제로 고객이 보는 것은 1%도 안된다면 그 100M개 모두를 같은 중요도로 유지하는 것이 무슨 의미가 있을까? 어떤 형태로건 데이터의 중요도를 계산해서 중요도에 따라 티어를 나누고 관리 방법을 달리해야 한다.

Big Data의 시대라고 하지만 허영이 낀 저품질의 Big Data 보다는 양질의 Small Data가 여러모로 (특히 작지만 성장하는 스타트업에게는) 더 효율적이다. 지금 데이터의 크기 문제로 고민하고 있다면 내가 다뤄야하는 데이터 중 정말 의미가 있는 것들이 무엇인지 생각해보고 그 비율을 계산해보자.

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 10월 28일 오후 10:50

저장 7 • 조회 3,339

함께 읽은 게시물

SNEW 스타트업 뉴스

start-up and VC

3일 전

사용자 모으니 매출안난다고 난리

[단독] 당근 매출 99%가 광고…원천기술 개발해 '우물 안' 벗어나야

서울경제

저장 2 • 조회 673

장홍석

스페이스오디티 부대표/CPO

하루 전

< 네이버는 왜 아이폰 쓰던 직원들에게 안드로이드폰을 사줬을까? >

1. 2010년경 네이버에서의 일이다. 스마트폰이 처음 나왔을 무렵이다. 아이폰이 먼저 나왔다. 이어서 다양한 안드로이드 폰이 나오며 시장 점유율이 늘기 시작했다. 더 많은 사람들이 안드로이드 폰을 쓰기 시작했다. 시장이 열리니 그에 맞는 모바일 전략과 서비스

댓글 1 • 저장 2 • 조회 355

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

하루 전

세상이 제정신이 아니다. 멀쩡한 남의 나라를 침공해 무고한 사람들의 희생을 불사하는 양심없는 대통령, 천적을 제거하며 장기 집권하는 염치없는 대통령, 자국의 이익만 강요하는 품위없는 대통령, 국민을 버리고 비자금을 챙겨 야반도주한 대통령, 야밤에 무력으로 민주주의를 훼손하는 정신나간 대통령.

(금요아침) 준비된 리더를 기다리며

전기신문

조회 269

SNEW 스타트업 뉴스

start-up and VC

4일 전

컬리의 물류 자회사 '컬리넥스트마일'의 신규 거래 및 협의 규모는 팀프레시가 기존 보유했던 신선식품 물량의 52% 수준에 달한다. 5월 기준 컬리의 신규 물량은 팀프레시 사태 이후 2.5배 증가했다.

컬리, 팀프레시 이탈 물량 52% 흡수…새벽배송 판 흔들다

블로터

저장 2 • 조회 647

비슷한 게시물

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

데이터 분석 인턴십을 마무리하며

석민 커리어 코치

데이터

양승화 딜라이트룸 Data Lead

[나이키에게 30조원 재앙을 부른 데이터 드리븐]

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

5년차 데이터 분석가가 엑셀(Excel)을 대하는 마음가짐

데이터리안 Data Analyst

데이터 분석가 첫 커리어는 어떤 회사에서 시작해야 할까요? 🤔

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

데이터 분석 전 체크해야 하는 체크리스트 6가지

주간 인기 TOP 10

진용진 Product manager

PM이 이해하면 좋은 지표 개념

장홍석 스페이스오디티 부대표/CPO

< 쿠팡의 창업자를 직접 보며 배운 것: 리더의 크기가 전부다 >

골빈해커 Chief Maker

나는 가끔 조합형 한글의 아름다움에 대해 생각한다. 그 아름다움

달레 Apollo GraphQL Software Engineer

리트코드 102. Binary Tree Level Order Tr

레드버스백맨 리서처 앤 라이터

⟪🚀 유니콘이라 불리던 그들, 이제 진짜 실력을 보여줄 때⟫

석민 커리어 코치

이력서에 쓰는 경험

백선환 AWS/ AIML Specialist

한때 천만원에 거래되었던 Manus, Bedrock 무료 오픈소스

한성규 '지금 써보러 갑니다' '팁스터 뉴스레터' 운영자

👋 LLM 활용에 도움이 되는 가이드 모음

동크루트 AI 엔지니어, SW 엔지니어

AI 시대에 갈피 못잡던 구글의 역습

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

훌륭한 데이터 분석가란 어떤 사람인가?

데이터 이야기 번외편 - 가치있는 데이터의 크기는?

댓글 0

함께 읽은 게시물

< 네이버는 왜 아이폰 쓰던 직원들에게 안드로이드폰을 사줬을까? >

비슷한 게시물

주간 인기 TOP 10

추천 프로필