데이터 내러티브
라떼는 말입니다 ㅎㅎ 작성한 쿼리가 1분 이상 돌아가면 DBA 부서 팀장에게 직통 전화가 와서 ‘경력도 몇 년 되지도 않는게 롱쿼리 함부로 날리지 말아라’ 라고 존댓말의 형식에 담긴 반말을 들었습니다. 믿기 어렵지만 국내 선도 IT 기업에서 불과 7년전에 일어난 일입니다. 지금은 웬만한 스타트업에서는 데이터 파이프라인이 잘 갖춰져있어서 ‘데이터가 흐르는 조직’ 자체로는 더 이상 가치를 창출하지 못하는 것 같습니다. 중요한 것은 데이터를 추출 및 가공할 뿐만 아니라, 이를 분석하고 해석하여 스토리를 제공하는 ‘데이터 내러티브’ 역량입니다. 만들어진 진실이라는 책에서는 ‘경합하는 진실’이라는 개념을 설명합니다. 다음의 두 가지 진술 중 무엇이 사실일까요? 1. 퀴노아를 구매하면 남아메리카의 가난한 농부들의 수입이 늘어난다 2. 퀴노아의 지나친 구매로 볼리비아나 페루 사람들이 전통 식품을 구매할 때 더 비싼 돈을 지불해야 한다 결론은 둘 다 사실입니다. 하지만 양측 다 굉장히 다른 주장을 이끌어낼 수 있는 근거가 될 수 있습니다. 결국 데이터 자체보다, 심지어 데이터 해석보다 중요한 것은, 데이터를 기반으로 어떠한 스토리를 이끌어내는지 입니다. 예컨대, 미국 내 ‘경찰이 흑인에게 가혹한 진압’을 해서 인종차별 논란을 일으킨 사건과 관련해 다음의 데이터를 살펴봅시다. 경찰관이 살인자일 때: 피해자가 흑인 27% (307명) / 백인 51% (584명) 피해자가 백인일 때: 살인자가 백인 81% (2574명) / 흑인 16% (500명) 피해자가 흑인일 때: 살인자가 백인 9% (229명) / 흑인 89% (2380명) *인종이 알려지지 않은 경우는 제외 본 데이터를 기반으로 ‘미국에서 흑인이 살해당한다면, 경찰관 손에 죽을 가능성은 27%에 불과하고, 같은 흑인에게 죽을 가능성은 89%다. 그렇기 때문에 흑인에게 위험한 것은 경찰관 보다는 같은 흑인이다’ 라는 주장을 한다면 어떨까요? 이러한 주장은 표면상으로는 틀리지 않지만, 매우 틀린 주장입니다. 왜냐하면 흑인과 경찰관의 전체 집단 크기가 다르기 때문입니다. 흑인은 약 4천만명 인데 반해 경찰관은 약 63.5만명 입니다. 가해자 집단 크기 대비 흑인 피해자 집단 수를 비교하면, 우리가 정말로 알고 싶은 질문에 대한 답이 나옵니다. 그 질문은 바로 ‘흑인이 만약 길거리에서 누군가를 만난다면, 흑인이 더 위험할까 경찰관이 더 위험할까?’ 입니다. 답은 경찰관이 8배 더 위험합니다. 어쩌면 틀린것은 숫자나, 데이터에 대한 해석이 아닐지도 모릅니다. 틀린 건 우리의 ‘데이터 내러티브’일 수 있습니다.