[단독] 당근 매출 99%가 광고…원천기술 개발해 '우물 안' 벗어나야
서울경제
지난 몇 년 동안 데이터 컨설팅을 하면서 느낀 점 중의 하나는 데이터를 파는 회사임에도 불구하고 정말 가치를 주는 데이터의 크기를 알고 있는 회사들은 많지 않았다는 점이다. "우리 DB에 몇 개의 레코드가 있어요"하는 거는 쉽게 이야기할 수 있는 거지만 그중 정말로 고객에 의해 사용되는 레코드가 몇 개이고 레코드들을 중요도로 순위를 정할 수 있냐(일종의 tiering)고 물어보면 그걸 잘 대답할 수 있는 곳은 많지 않았다. 그냥 "우리는 이렇게 많은 데이터가 있고 이걸 문제없이 빠르게 처리하고 싶어요" 이게 보통 듣는 컨설팅 관련 요청이다.
사실 맞는 질문은 우리가 갖고 있는 데이터 중 정말 의미있는 것들이 무엇이고 그 비중이 얼마나 되는지 먼저 보는 것이 아닐까? 바쁘다보니 관성적으로 일을 하는 것도 있고 이런 데이터의 크기를 회사의 가치로 착각(?)하는 경우도 있었다.
데이터도 생명체처럼 라이프 사이클이 있다. 즉 어느 시점부터는 가치가 떨어지기 시작하고 최종적으로는 청소가 필요하다. 또한 이런 청소를 게을리하면 중복부터 시작해서 저품질의 데이터등등 여러 이슈가 발생하면서 데이터의 크기를 증가시키고 이는 데이터를 유지하는데 큰 수고와 비용이 나가는 것으로 이어진다. 어느 시점에는 시스템이 스케일하지 않는다. 관계형 데이터베이스부터 깨져 나가기 시작하며 이때부터 데이터 웨어하우스를 도입하는데 (보통 이 시점이 내가 컨설팅을 하는 시점이다) 데이터의 크기가 크면 어떤 문제도 쉽지 않다.
많은 경우 이런 문제가 얼마나 심각한지 잘 모르는데 대부분의 이유는 데이터의 품질을 나타내는 지표가 없었기 때문이었다. 예를 들어 100M개의 레코드가 있지만 그중 실제로 고객이 보는 것은 1%도 안된다면 그 100M개 모두를 같은 중요도로 유지하는 것이 무슨 의미가 있을까? 어떤 형태로건 데이터의 중요도를 계산해서 중요도에 따라 티어를 나누고 관리 방법을 달리해야 한다.
Big Data의 시대라고 하지만 허영이 낀 저품질의 Big Data 보다는 양질의 Small Data가 여러모로 (특히 작지만 성장하는 스타트업에게는) 더 효율적이다. 지금 데이터의 크기 문제로 고민하고 있다면 내가 다뤄야하는 데이터 중 정말 의미가 있는 것들이 무엇인지 생각해보고 그 비율을 계산해보자.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 28일 오후 10:50
사용자 모으니 매출안난다고 난리
... 더 보기1. 2010년경 네이버에서의 일이다. 스마트폰이 처음 나왔을 무렵이다. 아이폰이 먼저 나왔다. 이어서 다양한 안드로이드 폰이 나오며 시장 점유율이 늘기 시작했다. 더 많은 사람들이 안드로이드 폰을 쓰기 시작했다. 시장이 열리니 그에 맞는 모바일 전략과 서비스
... 더 보기세상이 제정신이 아니다. 멀쩡한 남의 나라를 침공해 무고한 사람들의 희생을 불사하는 양심없는 대통령, 천적을 제거하며 장기 집권하는 염치없는 대통령, 자국의 이익만 강요하는 품위없는 대통령, 국민을 버리고 비자금을 챙겨 야반도주한 대통령, 야밤에 무력으로 민주주의를 훼손하는 정신나간 대통령.
... 더 보기컬리의 물류 자회사 '컬리넥스트마일'의 신규 거래 및 협의 규모는 팀프레시가 기존 보유했던 신선식품 물량의 52% 수준에 달한다. 5월 기준 컬리의 신규 물량은 팀프레시 사태 이후 2.5배 증가했다.
... 더 보기