경험을 데이터로 바꾸려면 엄밀한 정의가 필요하다.

통계학자들은 복잡한 통계 모델과 관측을 통해 지구에 나무가 3조 4천억 그루가 있다고 추정했는데 오차범위는 1000억이었다. 나무조차 나라마다 기준이 다르며 모호한 기준(행복, 건강, 기분)은 오죽할까. ‘실업자’ 같은 권위있는 용어는 명확할 것 같지만 영국의 실업 기준은 1979년과 1996년 사이에 서른한번 바뀌었다. 게다가 GDP는 성매매와 마약거래가 추가된 이후로 서비스 이용자들의 리뷰 웹사이트 펀터넷(PunterNet)을 통해 추정한다. 우리가 수집하는 웹상에서 데이터 또한 크게 다르지 않다. 고객 만족도 조사나 서베이같은 경우 100만명에게 서베이를 돌려서 1만명이 응답한다. (방식에 따라 다르지만 팝업 서베이는 보통 0.1%가 응답한다고 한다.) 여기서 99만명의 의견을 배제하는 것은 위험하다. 99만명이 특히 서비스를 더 좋아하거나, 좋아하지 않을 수 있고, ‘귀찮음이 많은 사람들’을 배제함으로써 특정 의견의 우세해질 수 있기 때문이다. 단순히 서베이 방식이나 질문 순서만 바꿈으로써 제품의 선호도를 올리는 것은 실제로 그리 어려운 일이 아니다. 로그 데이터는 정확할까? 가장 흔하게 수집하는 방문자(Unique Visitor)는 실제로 방문자수를 수집하지 않는다. ‘유일한 방문으로 추정되는 접근 수’를 추정할 뿐이다. 예를 들면 로그인하지 않은 사용자가 시크릿모드로 접속을 하거나, 브라우저를 사파리에서 크롬브라우저로 바꿔서 접속하면 단 한명의 방문이 여러 개의 방문으로 집계된다. 이 비율이 적을 수도 있지만 회사에서 고객에 대한 귀중한 인사이트(예를 들어 비행기표를 저렴하게 구매하기 위해 시크릿모드로 접속하는 고객의 행동)을 무시하게 된다. “통계는 판단에 어느 정도 의존한다. 따라서 개인적인 경험을 애매모호하지 않게 코드화하여 스프레드시트나 소프트웨어에 깔끔하게 입력할 수 있다는 생각은 착각이다. 세상에 데이터가 많아졌다. 많아졌다는 것은 어떤 증거가 얼마나 가치 있는지를 잘 판단해야 한다는 뜻이다.” (데이티브 스피겔할터)

경험을 데이터로 바꾸려면 엄밀한 정의가 필요하다.

알림