심슨의 역설 - 데이터 세그먼트 분석이 필수인 이유
마케터, 기획자, 개발자 등 어떤 직군이든 상관없이 데이터 분석은 필수적인 스킬이다. 업무에 쫓기다보면 평균이나 OMTM 등 대표적인 수치로 단순화하여 보려는 경향이 강해진다. 우리가 자주 사용하는 수치들이 얼마나 왜곡될 수 있는지 잊곤한다. 대표적으로 평균의 함정과 심슨의 역설은 현상을 반대로 해석할 수 있기 때문에 데이터를 해석할 때 마다 염두에 두고 조심해야한다. 평균의 함정 평균의 함정으로 가장 많이 드는 예 중 하나는 1985년 노스캐롤라이나 대학교의 지리학과 졸업생 평균 연봉이다. 그 때 당시 평균연봉으로 1억 1천만원이라는 수치가 나오면서 큰 논란이 되었다. 사실 알고 보니 당시 졸업생중 마이클 조던의 연봉이 포함되면서 나온 헤프닝으로 밝혀졌다. 평균이라는 수치에 아웃라이어가 포함되었을 때 얼마나 왜곡될 수 있는지를 보여주는 사례로 종종 인용된다. 심슨의 역설 1973년 캘리포니아 주립대학이 남여 평균 합격율이 발표되면서 성차별로 고소당하는 사건이 있었다. 총 8,442명의 남성 지원자들 중 1973명이 합격하고 4351명의 여성 지원자들 중 1523명이 합격했다. 남성 합격률은 44%, 여성은 35% 로 성차별적 합격률을 보였다며 실제로 고소를 당했다. 그런데 실제로 학과별로 합격률을 나눠서 살펴보았더니 각 학과별 합격률이 대부분 여성이 높거나 같은 수준이었다. 개별적인 경향성과 전체합의 경향성이 반대로 나오는 모순을 ‘심슨의 역설' 이라고 한다. 이러한 모순이 발생한 이유는 바로 여성이 우연히도 합격률이 낮은 학과에 더 많이 지원하면서 발생했다. 심슨의 역설이 적용되는 사례는 또 있다. 1982년과 2013년의 미국 25 - 44세 남성의 소득 중위값을 인종별로 비교한 리서치 자료가 있었다. 전체 소득 중위값은 살짝 감소하는 것으로 나왔으나 백인, 기타(아시아인) 은 크게 증가했고 히스패닉, 흑인의 소득은 같거나 소폭 상승한것으로 나타났다. 전체의 경향과 부분의 경향이 다르게 나타나는 전형적인 심슨의 역설이다. 이유는 바로 소득 수준이 낮은 흑인과 히스패닉 남성의 인구가 크게 늘었기 때문이다.