Community

심슨의 역설 - 데이터 세그먼트 분석이 필수인 이유

마케터, 기획자, 개발자 등 어떤 직군이든 상관없이 데이터 분석은 필수적인 스킬이다. 업무에 쫓기다보면 평균이나 OMTM 등 대표적인 수치로 단순화하여 보려는 경향이 강해진다. 우리가 자주 사용하는 수치들이 얼마나 왜곡될 수 있는지 잊곤한다. 대표적으로 평균의 함정과 심슨의 역설은 현상을 반대로 해석할 수 있기 때문에 데이터를 해석할 때 마다 염두에 두고 조심해야한다. 평균의 함정 평균의 함정으로 가장 많이 드는 예 중 하나는 1985년 노스캐롤라이나 대학교의 지리학과 졸업생 평균 연봉이다. 그 때 당시 평균연봉으로 1억 1천만원이라는 수치가 나오면서 큰 논란이 되었다. 사실 알고 보니 당시 졸업생중 마이클 조던의 연봉이 포함되면서 나온 헤프닝으로 밝혀졌다. 평균이라는 수치에 아웃라이어가 포함되었을 때 얼마나 왜곡될 수 있는지를 보여주는 사례로 종종 인용된다. 심슨의 역설 1973년 캘리포니아 주립대학이 남여 평균 합격율이 발표되면서 성차별로 고소당하는 사건이 있었다. 총 8,442명의 남성 지원자들 중 1973명이 합격하고 4351명의 여성 지원자들 중 1523명이 합격했다. 남성 합격률은 44%, 여성은 35% 로 성차별적 합격률을 보였다며 실제로 고소를 당했다. 그런데 실제로 학과별로 합격률을 나눠서 살펴보았더니 각 학과별 합격률이 대부분 여성이 높거나 같은 수준이었다. 개별적인 경향성과 전체합의 경향성이 반대로 나오는 모순을 ‘심슨의 역설' 이라고 한다. 이러한 모순이 발생한 이유는 바로 여성이 우연히도 합격률이 낮은 학과에 더 많이 지원하면서 발생했다. 심슨의 역설이 적용되는 사례는 또 있다. 1982년과 2013년의 미국 25 - 44세 남성의 소득 중위값을 인종별로 비교한 리서치 자료가 있었다. 전체 소득 중위값은 살짝 감소하는 것으로 나왔으나 백인, 기타(아시아인) 은 크게 증가했고 히스패닉, 흑인의 소득은 같거나 소폭 상승한것으로 나타났다. 전체의 경향과 부분의 경향이 다르게 나타나는 전형적인 심슨의 역설이다. 이유는 바로 소득 수준이 낮은 흑인과 히스패닉 남성의 인구가 크게 늘었기 때문이다.

알림

알림이 없습니다