데이터의 허와 실, 평균의 함정과 심슨의 역설! | 뷰저블
뷰저블
[😈데블챌 2기 6일차, 평균의 함정과 심슨의 역설]
통계의 함정은 데이터 분석에서 흔히 겪게 되는 문제입니다. 그 중에서 '평균의 함정'과 '심슨의 역설'이라는 대표적인 사례를 다룬 글을 공유해볼까 합니다~!
평균의 함정
데이터의 대푯값으로 흔히 쓰이는 "평균"이 때로는 왜곡된 해석을 불러 일으킨다는 것입니다. 예를 들어, 1985년도 노스캐롤라이나 대학교 지리학과 졸업생의 평균 초봉이 무려 10만 달러에 달한다는 뉴스가 있었습니다. 하지만 그 평균 값은 당시 졸업자 중 3,300만 달러의 연봉의 보유자인 마이클 조던이 포함되었기 때문입니다. 이처럼 데이터의 아웃라이어와 지표에 따라, 통계적 의미가 달라 질 수 있음을 주의 해야 합니다.
심슨의 역설
영국의 통계학자 에드워드 심슨이 정리한 역설로 각각의 변수에 신경 쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류를 말합니다. 1973년 버클리 대학원의 합격률이 남녀 간의 50%가량 차이가 난다는 지적이 있었습니다. 하지만 공학부/문학부로 나누어 지원자들의 통계를 계산하자 결과가 반대로 나타났습니다. 이러한 심슨의 역설을 피하려면, 군집별로 데이터를 ‘쪼개보고’, 쪼갠 데이터를 함께 비교하여 ‘교차분석’하는 것이 가장 중요합니다.
모든 통계적 자료와 해석들이, 철저하고 높은 비용의 검토가 필요하다고 생각하지는 않습니다. 하지만 통계와 데이터 분석은 현상을 설명하기 위한 '도구' 임을 기억하고, 능동적인 자세로 자료들을 이해하는 습관이 중요하다고 생각합니다. 🤓
https://www.beusable.net/blog/?p=3298
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 6월 2일 오전 6:31
요
... 더 보기안
... 더 보기