내가 보는 데이터는 어떤 그릇에 담겨있을까?
‘외모가 괜찮으면서 성격이 좋은 남자는 없다’는 속설에 대해서 어떻게 생각하시나요? ‘네가 눈이 높은 것을, 괜히 말도 안되는 핑계대지 말라며’ 주변의 타박을 받은 분들에게 좋은 소식을 전해드립니다. 이는 사실인 걸로 밝혀졌습니다. 외모를 X축에 두고 성격을 Y축에 둔 산포도 차트를 상상해 봅시다. 이 차트에 랜덤하게 점들이 분포되어 있을 때는, 외모와 성격 사이에 어떤 상관관계도 없습니다. 이제 각자 가슴에 손을 얹고 외모와 성격의 ‘과락’ 기준을 떠올려 봅시다. 이제 X축과 Y축에 각각 과락점을 찍고, 이 두 점을 연결해보면..?? 짜잔, 직각 삼각형이 나타나면서 외모와 성격의 완벽한 역의 상관관계가 나타납니다. 즉, 우리가 전체라고 보고 있는 데이터는 이미 한 번의 체로 걸러진 데이터인 것입니다. 같은 선상에서 만약 신입사원의 스펙과 실력이 역의 상관관계가 나타난다고 생각하신다면, 애초에 스펙은 별로인데 경쟁을 뚫고 회사에 입사한 ‘인재’와, 스펙이 좋기 때문에 별 문제없이 입사를 하게 된 ‘범재’를 비교하고 있는 것은 아닌지 고민해봐야 합니다. 이것이 베이지안 관점입니다. 이 전에 발생한 사건이 이후 사건의 확률에 영향을 미친다는 관점입니다. 사전 확률을 알면 이를 기반으로 사후 확률을 추정하는 ‘베이즈 정리’ 공식도 있습니다. 좀 더 쉽게, 네이트 실버가 쓴 ‘신호와 소음’이란 책에서 나온 예시를 들어보겠습니다. (예시의 부적절함을 용서해주세요..) 남편의 방에서 여성의 속옷이 나왔습니다. 이 때, 남편이 바람을 피우고 있을 확률은 얼마일까요? ..100% 라구요?!! 많이 화가 나신 것은 알겠지만, 차분하게 따져 봅시다. 전체 인구의 불륜율은 4%라고 합니다. 실제 바람을 피우고 있는 남편들의 53.3%는, 아내에게 속옷을 걸렸다는 통계가… 있다고 칩시다. 반대로 바람을 피우고 있지 않은 남편들도, 어떤 알 수 없는 이유로 5% 정도가 방에서 여성 속옷이 나온다고 합니다. 이 경우, 베이즈 정리에 사전 확률을 대입하면 결과는 31%가 나옵니다 (자세한 공식은 브런치 글에서 확인해 주세요) 생각보다는 작은 수치죠? 그렇지만 아무 사건도 없었을 때는 4%였던 수치가 (전체 인구의 불륜율 수치인) 속옷이 걸린 사건으로 인해, 8배 가량 치솟았습니다. 이렇게 사전 확률에 따라 사후 확률이 달라지는 것이 베이지안의 특징입니다.