[많기만 하면 빅데이터일까?] 앞선 코멘트에서 매출로 이어지는 유저의 행동을 쪼개어서 봐야한다고 했습니다. 조각 조각이 되어 더 불어난(!) 데이터를 이제 어떻게 해야할까요? 📚 의 "많기만
[많기만 하면 빅데이터일까?] 앞선 코멘트에서 매출로 이어지는 유저의 행동을 쪼개어서 봐야한다고 했습니다. 조각 조각이 되어 더 불어난(!) 데이터를 이제 어떻게 해야할까요? 📚 의 "많기만 하면 빅데이터일까"에서 문장을 발췌했습니다. - 내 몸의 피를 다 뽑아서 검사할 필요가 없듯이, 전수가 아닌 샘플을 통해 데이터를 확인하는 것이 샘플링이다. - 물론 어느 경우에도 전체 의견을 대변하지 못하고 틀릴 수 있다. 샘플링이 잘못될 수 있고, 시간이나 기타 요인으로 결과가 달라질 수도 있다. - 그렇지만 단순히 "전체가 아닌 적은 수를 대상으로 했기 때문에 믿을 수 없다"라고 말하는 것은 그냥 오해다. - '빅데이터'라고 부르는 이유는 데이터가 크기 때문만은 아니다. - 단순한 문항 하나를 많은 사람을 대상으로 질문했다고 해서 빅데이터로 변신하는 것은 아니다. 그것은 그냥 많은 사람을 대상으로 한 설문조사를 단순 집계한 결과일 뿐이다. - 그 조사 결과를 다른 데이터와 연결하고, 분석해서, 데이터의 목적인 소비자 이해에 도달했을 때 비로소 수많은 데이터를 모은 의미가 더욱 빛나게 되는 것이다. 💡 comment - 물론 데이터가 많으면 할 수 있는게 많지만, 무조건 데이터가 많은, 예를 들어 오래되고 큰 기업이 데이터를 잘 다루는 것은 아니죠. - 일련의 유저들을 특징별로 그룹화하고, 어떤 지표를 뽑았다고 했을 때, 거기서 끝이 아니라 여기서부터가 진짜 의 시작입니다. - 데이터분석 하면 SQL이나 파이썬 같은 도구를 쉽게 떠올리는데요. 이미 GA나 앰플리튜드 같은 '데이터 제품'이 고도화되고 있고, 직접 대쉬보드를 만드는 기업도 매번 추출하는 것이 아니라 자동화를 하려고 노력하고 있습니다. - 뿐만아니라 이런 기술은 머지않아서, 지금의 엑셀처럼, 데이터분석가가 아닌 직무에서도 쉽게 쓰이게 될 거라고 봅니다. - 하지만 저자도 책 전반에 걸쳐서 하는 이야기이자 저도 많이 공감하는 것은, 결국 데이터에 목적을 부여하고 연결하여 진정한 빅데이터로 만드는 건 오로지 사람의 몫이라는 겁니다. - 기껏 뽑은 데이터를 보고 드는 생각이 '그렇구나'라면, 그 데이터를 다시는 보지 않게 될 가능성이 높습니다. '그럼 이렇게 해야겠네?'로 이어져야 어떤 액션을 취할 수 있고, 다시 데이터로 돌아와 어떻게 변했는지 볼 것이고요. 그게 진짜 빅데이터를 의미있게 다루고 있다고 할 수 있을 것입니다. (항상 하는 생각이지만.... 말은 쉽지만 실제로 하는 건 정말 어렵답니다. 저도 열심히 내공을 닦고 있어요!)