Community

왜곡된 분포의 데이터에서 중앙값이 항상 평균보다 더 나은 결과를 가져올까? 🤔 데이터 집단의 대표값으로 가장 많이 활용되는 개념은 바로 '평균'과 '중앙값'입니다. 대푯값으로 평균 대신 중앙값

왜곡된 분포의 데이터에서 중앙값이 항상 평균보다 더 나은 결과를 가져올까? 🤔 데이터 집단의 대표값으로 가장 많이 활용되는 개념은 바로 '평균'과 '중앙값'입니다. 대푯값으로 평균 대신 중앙값을 사용하는 이유는 '평균은 일반적으로 데이터가 대칭 분포를 따를 때 더 낫고, 데이터가 왜곡되면 평균이 이상치(outlier)에 의해 왜곡될 것이기 때문에 이러한 상황에서 중앙값을 사용하는 것이 더 유용하다고 알고 있습니다. 위 말처럼 항상 왜곡된 분포의 데이터(skewd data)에서는 평균 대신 중앙값을 사용하는 것이 더 나은 결과로 이어질까요? 이 글의 필자는 통계 지식을 바탕으로 한 위 대답에 대해 데이터의 본질에 초점을 맞추고 있으나, 분석의 목표를 고려하지 않은 대답이라고 말합니다. 특히, 최근 데이터 분야에서 크게 화두가 되는 Decison Analytics에서는 이처럼 데이터의 본질에 초점을 맞추기보다 분석의 목표에 집중하는 것이 더 중요하다는 점을 함께 강조하고 있습니다. 이 글은 꽤 긴 글로 쓰였습니다. 그럼에도 불구하고 우리가 가지고 있던 오해를 재미있는 세 가지 사례를 통해 설명하고 있고, Python을 이용하여 A/B 테스트 형식의 시뮬레이션 검증을 통해 우리가 가질 수 있는 의문을 하나씩 검증하고, 의사 결정 분석(Decision Analytics)에 도움이 될 수 있는 접근에 대해 소개하고 있습니다. 이 글에서 소개하고 있는 세 가지 사례에 대해 간단히 살펴보도록 하겠습니다.🧐 사례 1. 복권 당첨 확률🍀 Game A • 1달러에 당첨될 수 있는 확률 1/3 • 2달러에 당첨될 수 있는 확률 1/3 • 3달러에 당첨될 수 있는 확률 1/3 Game B • 1달러를 당첨될 수 있는 확률 1/3 • 1.9달러에 당첨될 수 있는 확률 1/3 • 1,000,000달러에 당첨될 수 있는 확률 1/3 여러분이라면 어떤 게임을 선택하시나요? 게임 B의 중앙값이 1.9$로 게임 A 중앙값이 2$보다 낮더라도 아마 대부분 게임 B를 선택할 것입니다. 게임 B의 100만 달러의 확률 1/3은 데이터로는 극단의 값(outlier)이지만 우리의 의사 결정은 결코 확률에 의해 이루어지지 않음을 알 수 있습니다. 사례 2. 빌게이츠가 바 안으로 들어가고, 그곳에 있는 모든 사람들은 평균적으로 백만장자가 된다💸 이러한 농담이 있다고 합니다. "빌게이츠가 바 안으로 들어가고, 그곳에 있는 모든 사람들은 평균적으로 백만장자가 된다" 이 농담은 평균이 어떻게 오해의 소지가 있을 수 있는지를 강조하고 있습니다. 맥락 없이 이 이야기를 듣는다면 마치 그곳이 백만장자로 가득 차 있다고 생각할 수 있습니다. 이 사례는 중앙값이 대부분의 사람들에게 더 직관적이라고 생각하는 결과를 제공할 수 있습니다. 이 예제에서 말하고자 하는 본질은 이러한 부분이 의사결정이 아닌 데이터 커뮤니케이션(Data Communication)에 관한 것이라는 점입니다. 데이터에 대한 커뮤니케이션이 반드시 최적의 의사 결정으로 이어지는 부분이 아니라는 점을 이 예를 통해 이야기합니다. 사례 3. 확장을 고려하고 있는 회사👩‍💻 한 회사가 사업 확장을 위해 300명의 새로운 사원을 고용한다고 가정하겠습니다. 300명의 사원을 고용하기 때문에 회사는 이에 따른 비용을 추정해야 합니다. 일반적으로 급여의 겨우 소득과 마찬가지로 데이터 분포가 왜곡(skewed)되는 경향이 있습니다. 따라서, 우리는 평균 급여가 중앙값보다 클 것이라고 생각할 수 있습니다. 그런데 만약 통계적 지식에 의한 접근으로 급여의 분포가 왜곡되었기 때문에 중앙값을 사용하기로 결정한다면 아마 이 회사는 새로운 사원을 고용하는 총 비용을 중앙값에 300명을 곱한 값으로 추정할 수 있습니다. 위와 같이 중앙값을 이용하여 총비용을 추정했다면 실제로는 추정치보다 더 많은 비용이 발생될 것입니다. 이 케이스는 총비용을 추정하는 것이 목표였기에 당연히 평균을 사용하는 것이 맞습니다. 왜냐하면 평균은 합계(= 평균 X N )와 직접적인 관계를 가지고 있지만, 중앙값은 그렇지 않습니다. 또 하나의 예로 사람들의 소득과 관련된 연구에서 우리는 중앙값을 통해 집단을 이루고 있는 데이터에 대한 직관적인 이해에는 도움이 되나, 인구의 소득 합계를 추정하는 것이 목적이 된다면 평균은 데이터 분포 모양에 관계없이 중앙값보다 유용한 척도가 될 수 있습니다. 위 세 가지 사례와 더불어 Python 코드를 이용한 검증은 직접 이 글을 읽는 독자가 해볼 수 있도록 github에서 코드를 공개하고 있으니, 과정 하나하나를 따라가시는 것도 추천드립니다. 끝으로 이 글 마지막에서 필자는 이 글의 처음에서 던졌던 질문에 대해 질문을 합니다. 그리고 이 질문에 대해 자신의 견해를 밝히고 있습니다. "언제 중앙값(median) 대신 평균(mean)을 사용하는 것이 더 나은 결과를 가져올까?" 필자 Say ✍️ "평균 또는 중앙값을 사용하는 선택은 분석의 목표에 의해 주도되어야 합니다. 만약 비즈니스의 결정이 총액(예 : 총매출 또는 수익)에 의한다면, 평균은 중앙값과 달리 총액과 직접적인 관계가 있기 때문에 더 나은 지표입니다. 평균은 극단적인 값에 민감하기 때문에 클린 한 데이터에서 계산될 수 있도록 주의해야 합니다. 분포가 왜곡될 때, 중앙값은 전형적인 값에 대해 보다 직관적인 이해를 도울 수 있지만, 이것이 반드시 최적의 의사 결정에 기초라는 것을 의미하진 않습니다." 끝으로 이 글의 주제에 대해 필자는 데이터 과학자들이 통계, 머신 러닝, 프로그래밍뿐만 아니라 의사 결정 분석 주제를 함께 통합적으로 고려해야 함을 강조하며 이 글을 마무리합니다. 다소 긴 글이라서, 오역이 많을 수 있습니다.😂 원문을 직접 한번 읽어 보시는 것을 추천합니다.👍

알림

알림이 없습니다