<통계 분석과 관련된 10가지 오류 혹은 역설 | 커리어리

<통계 분석과 관련된 10가지 오류 혹은 역설> 통계 분석을 할 때는 데이터 전처리 과정에서 실수하지 않는 것도 중요하지만, 그에 못지 않게 가설을 잘 세우는 것이 중요합니다. 잘못된 가설 하에서는 아무리 올바른 분석 기법을 사용하더라도 잘못된 결론에 이르기 쉽죠. 아래 10가지 오류와 역설은 대부분 가설(모형) 설계 과정에서 잘못된 판단을 했을 때 생길 수 있는 문제들입니다. 데이터 분석을 하시는 분들에게 좋은 가이드 자료인 것 같아 공유합니다. 각각에 대해 관련 자료 링크와 간단한 코멘트 첨부합니다. 1) Absence of evidence - https://www.bmj.com/content/311/7003/485.long - 증거의 부재를 부재의 증거로 판단하는 오류 - p-value 가 높아서 통계적 유의성을 갖지 못한다고 해서 실제 아무런 효과가 없는 것이라고 판단해서는 안됨 2) Ecological fallacy - https://web.stanford.edu/class/ed260/freedman549.pdf - 집단에서 관측된 현상이 개체에서도 적용된다고 판단하는 오류 - 예를 들어, 지방 섭취량이 많은 나라의 유방암 발생률이 높다고 해서 지방을 많이 섭취하면 유방암 발생률이 높아진다 라고 단정할 수 없음 3) Stein's paradox - https://www.researchgate.net/profile/Carl-Morris-3/publication/247647698_Stein%27s_Paradox_in_Statistics/links/53da1fe60cf2631430c7f8ed/Steins-Paradox-in-Statistics.pdf - 그냥 평균을 구한 값보다 평균에 편향을 준 값이 더 좋은 추정값을 갖는 현상 - James-stein 추정량 (james-stein estimator) 이라는 방법이 있음 4) Lord's paradox - https://errorstatistics.com/2019/08/02/s-senn-red-herrings-and-the-art-of-cause-fishing-lords-paradox-revisited-guest-post/ - 두 집단에 대해 사전사후 분석을 할 때 변화값에 대해 t-검정한 결과와 ANCOVA로 검정한 결과가 달라지는 현상 5) Simpson's paradox - https://academic.oup.com/ije/article/40/3/780/746837 - 전체 그룹의 통계량과 소그룹으로 나눠서 측정한 통계량 사이에 서로 반대되는 결론이 도출되는 현상 - 버클리 대학 남녀 입학률 차이로 인한 여성 차별 문제 6) Berkson's paradox - https://www.nature.com/articles/s41467-020-19478-2 - Collider 로 인해 가짜 상관 관계가 생기는 현상 7) Prosecutor's fallacy - https://academic.oup.com/aje/article/179/9/1125/103523 - P(A|B) 와 P(B|A) 가 같다고 가정하는 오류 - P(A) 와 P(B) 가 같을 경우에만 맞음 8) Gambler's fallacy - https://en.wikipedia.org/wiki/Gambler%27s_fallacy - 서로 독립적인 사건임에도 불구하고 과거에 발생 빈도가 낮다는 이유로 앞으로 발생 확률이 높아질 것이라고 믿는 것 - 예를 들어 지난 주 로또 당첨 번호는 이번 주에 당첨될 확률이 낮다고 생각하는 것 9) Lindley's fallacy - https://link.springer.com/article/10.1007/s11229-014-0525-z - 빈도주의 통계 검정 결과와 베이지안 통계 검정 결과가 완전히 다르게 나오는 현상 10) The low birth weight paradox - https://academic.oup.com/aje/article/164/11/1115/61454?login=true - 저체중 신생아의 사망률이 엄마가 흡연자인 경우에 미흡연모보다 더 낮게 나오는 현상 - Simpson's paradox의 일종임

JavaScript is not available.

Twitter

2021년 3월 24일 오후 1:53

댓글 1

함께 보면 더 좋은

주로 자연어 처리 분야에서 최근 많이 사용되고 있는 Transformer 를 게임 로그 데이터에 적용해 본 사례 소개해 드립니다. 게임 데이터 분석에서 가장 중점적으로 사용하는 데이터는 게임 활동 로그입니다. 게임 로그에는 캐릭터들이 게임 세계에서 수행하는 다양한 활동 내역이 꽤 상세하게 기록됩니다. 하지만 워낙 포함하고 있는 정보가 많다보니 대개 현업에서는 미리 정한 항목별로 수치들을 집계하여 단순화된 테이블을 만들어 분석합니다. 그러다보니 상당수의 정보가 사라지게 되죠. 이를 테면, 아이템 획득 횟수나 레벨, 획득 경험치, 플레이 시간들이 동일하다고 해서 동일한 특성을 갖는다라고 보긴 어렵습니다. 같은 행동도 어느 위치에서 했는지 그리고 어떤 순서로 했는지 등에 따라 각자가 경험한 느낌이나 캐릭터의 성격은 다를 수 있으니까요. 따라서 정교한 데이터 모델링을 위해선, 이렇게 항목별로 집계한 데이터 대신 활동 로그 시퀀스 정보를 최대한 잘 압축하는 임베딩 기술을 사용하는 것이 필요합니다. 그런데 생각해 보면 이건 동일한 단어 목록이라 하더라도 어떤 순서로 배치하느냐에 따라 의미가 완전히 달라질 수 있는 자연어 처리에서도 비슷합니다. 그래서 최근에 자연어 처리 분야에서 사용하는 딥러닝 기법들을 많이 참고하고 있는데요, 아래 글은 이 중에서도 transformer 를 시도해 본 사례를 정리한 글입니다.

Transformer를 이용해 대량의 게임 데이터를 임베딩 해보자!

Danbi-ncsoft

추천 프로필

현직자에게 업계 주요 소식을 받아보세요.

현직자들의 '진짜 인사이트'가 담긴 업계 주요 소식을 받아보세요.

커리어리 | 일잘러들의 커리어 SNS