데이터 이야기 번외편 - 가치있는 데이터의 크기는?

지난 몇 년 동안 데이터 컨설팅을 하면서 느낀 점 중의 하나는 데이터를 파는 회사임에도 불구하고 정말 가치를 주는 데이터의 크기를 알고 있는 회사들은 많지 않았다는 점이다. "우리 DB에 몇 개의 레코드가 있어요"하는 거는 쉽게 이야기할 수 있는 거지만 그중 정말로 고객에 의해 사용되는 레코드가 몇 개이고 레코드들을 중요도로 순위를 정할 수 있냐(일종의 tiering)고 물어보면 그걸 잘 대답할 수 있는 곳은 많지 않았다. 그냥 "우리는 이렇게 많은 데이터가 있고 이걸 문제없이 빠르게 처리하고 싶어요" 이게 보통 듣는 컨설팅 관련 요청이다.


사실 맞는 질문은 우리가 갖고 있는 데이터 중 정말 의미있는 것들이 무엇이고 그 비중이 얼마나 되는지 먼저 보는 것이 아닐까? 바쁘다보니 관성적으로 일을 하는 것도 있고 이런 데이터의 크기를 회사의 가치로 착각(?)하는 경우도 있었다.


데이터도 생명체처럼 라이프 사이클이 있다. 즉 어느 시점부터는 가치가 떨어지기 시작하고 최종적으로는 청소가 필요하다. 또한 이런 청소를 게을리하면 중복부터 시작해서 저품질의 데이터등등 여러 이슈가 발생하면서 데이터의 크기를 증가시키고 이는 데이터를 유지하는데 큰 수고와 비용이 나가는 것으로 이어진다. 어느 시점에는 시스템이 스케일하지 않는다. 관계형 데이터베이스부터 깨져 나가기 시작하며 이때부터 데이터 웨어하우스를 도입하는데 (보통 이 시점이 내가 컨설팅을 하는 시점이다) 데이터의 크기가 크면 어떤 문제도 쉽지 않다.


많은 경우 이런 문제가 얼마나 심각한지 잘 모르는데 대부분의 이유는 데이터의 품질을 나타내는 지표가 없었기 때문이었다. 예를 들어 100M개의 레코드가 있지만 그중 실제로 고객이 보는 것은 1%도 안된다면 그 100M개 모두를 같은 중요도로 유지하는 것이 무슨 의미가 있을까? 어떤 형태로건 데이터의 중요도를 계산해서 중요도에 따라 티어를 나누고 관리 방법을 달리해야 한다.


Big Data의 시대라고 하지만 허영이 낀 저품질의 Big Data 보다는 양질의 Small Data가 여러모로 (특히 작지만 성장하는 스타트업에게는) 더 효율적이다. 지금 데이터의 크기 문제로 고민하고 있다면 내가 다뤄야하는 데이터 중 정말 의미가 있는 것들이 무엇인지 생각해보고 그 비율을 계산해보자.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 10월 28일 오후 10:50

댓글 0