대다수의 A/B 테스트는 헛소리다. 생각보다 | 커리어리

대다수의 A/B 테스트는 헛소리다. 생각보다 많은 사람들이 필요 이상으로 A/B 테스트를 하는데, 그럴수록 결과물은 더 큰 헛소리로 진화를 한다. 보통 95% 신뢰구간을 가지고 검정을 하지만, 정작 이게 무슨 뜻인지 아는 사람은 드물다. 뭔가 95% 신뢰구간에 있으면, 95%를 신뢰할 수 있는 게 아니라 계속해서 시행을 한다면 95%의 결과가 신뢰구간에 있다는 얘기다. 문제는 많은 (독립적인 하지만 우리는 독립적인 상황을 만들지 않기 때문에 애당초 틀려먹은 환경에서의) 테스트를 진행할수록 당연히 확률적으로 95%를 벗어나는 경우가 생긴다. 그리고 우리는 “유레카!”라고 외치며 무언가 큰 것을 발견한 것처럼 행동한다. 하지만 검정하는 가설의 숫자가 많아질수록 귀무가설이 기각될 확률도 당연히 높아진다. 그래서 이것을 막기 위해서 다양한 교정(Correction) 방법들이 나왔다. 그 중 가장 보수적으로 교정을 하는 방식이 있는데, 이를 본페로니 교정(Bonferroni correction)이라고 한다. 테스트의 시행의 숫자만큼 유의수준을 나눠준다. 예를 들면 5% 유의수준으로 테스트를 진행하되, 시행숫자가 20번이라면 0.25%의 유의수준으로 검정을 해야 한다. 대다수는 이렇게 교정을 하지 않고 5%가 될 때 까지 무한히 테스트를 진행한다. 그래서 대다수의 A/B 테스트는 헛소리고 영혼 없는 A/B 테스트 신봉자들의 무한한 A/B 테스트 대다수를 크게 믿을 필요가 없다. 더욱 놀라운 점은 A/B 테스트를 앞세워 그로쓰 해킹에 대해서 논하는 사람치고 이러한 함정에 대해서 설명해주는 사람은 극히 드물다. 확실하게 구분을 해야하는데, 많은 것을 시도하고 그 중 하나가 잘되는 것을 골라내는 건 '유전적 알고리즘'에 가깝다. 이를 통해 얻어낸 결과가 왜 잘되는지 이유를 모를 수도 있고, 만들어 낼 수 있는 최강의 이미지, 문구, 색깔 등의 조합은 아닐지도 모른다. 하지만 어쨋든 잘되는 것 하나만 있으면 된다.모바일 서비스, 광고의 핵심은 유전적 알고리즘에 있다고 본다.

[제품의 성공을 만드는 PM] 가치 있는 A/B 테스트 가설을 세우기 위한 방법 - 모비인사이드 MOBIINSIDE

모비인사이드 MOBIINSIDE

2021년 1월 29일 오전 4:50

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!

현직자들의 '진짜 인사이트'가 담긴 업계 주요 소식을 받아보세요.

커리어리 | 일잘러들의 커리어 SNS