대다수의 A/B 테스트는 헛소리다. 생각보다 많은 사람...

조경상

메트릭 스튜디오 대표

대다수의 A/B 테스트는 헛소리다. 생각보다 많은 사람들이 필요 이상으로 A/B 테스트를 하는데, 그럴수록 결과물은 더 큰 헛소리로 진화를 한다. 보통 95% 신뢰구간을 가지고 검정을 하지만, 정작 이게 무슨 뜻인지 아는 사람은 드물다. 뭔가 95% 신뢰구간에 있으면, 95%를 신뢰할 수 있는 게 아니라 계속해서 시행을 한다면 95%의 결과가 신뢰구간에 있다는 얘기다. 문제는 많은 (독립적인 하지만 우리는 독립적인 상황을 만들지 않기 때문에 애당초 틀려먹은 환경에서의) 테스트를 진행할수록 당연히 확률적으로 95%를 벗어나는 경우가 생긴다. 그리고 우리는 “유레카!”라고 외치며 무언가 큰 것을 발견한 것처럼 행동한다. 하지만 검정하는 가설의 숫자가 많아질수록 귀무가설이 기각될 확률도 당연히 높아진다. 그래서 이것을 막기 위해서 다양한 교정(Correction) 방법들이 나왔다. 그 중 가장 보수적으로 교정을 하는 방식이 있는데, 이를 본페로니 교정(Bonferroni correction)이라고 한다. 테스트의 시행의 숫자만큼 유의수준을 나눠준다. 예를 들면 5% 유의수준으로 테스트를 진행하되, 시행숫자가 20번이라면 0.25%의 유의수준으로 검정을 해야 한다. 대다수는 이렇게 교정을 하지 않고 5%가 될 때 까지 무한히 테스트를 진행한다. 그래서 대다수의 A/B 테스트는 헛소리고 영혼 없는 A/B 테스트 신봉자들의 무한한 A/B 테스트 대다수를 크게 믿을 필요가 없다. 더욱 놀라운 점은 A/B 테스트를 앞세워 그로쓰 해킹에 대해서 논하는 사람치고 이러한 함정에 대해서 설명해주는 사람은 극히 드물다. 확실하게 구분을 해야하는데, 많은 것을 시도하고 그 중 하나가 잘되는 것을 골라내는 건 '유전적 알고리즘'에 가깝다. 이를 통해 얻어낸 결과가 왜 잘되는지 이유를 모를 수도 있고, 만들어 낼 수 있는 최강의 이미지, 문구, 색깔 등의 조합은 아닐지도 모른다. 하지만 어쨋든 잘되는 것 하나만 있으면 된다.모바일 서비스, 광고의 핵심은 유전적 알고리즘에 있다고 본다.

[제품의 성공을 만드는 PM] 가치 있는 A/B 테스트 가설을 세우기 위한 방법 - 모비인사이드 MOBIINSIDE

모비인사이드 MOBIINSIDE

다음 내용이 궁금하다면?

이미 회원이신가요?

2021년 1월 29일 오전 4:50

저장 15 • 조회 558

비슷한 게시물

주간 인기 TOP 10

권태관 NAVER 소프트웨어 엔지니어

6년간의 토이프로젝트 여정을 마무리하며 - 기술블로그 구독서비스

psmon 웹노리라이터

DDD와 AI

Arawn Park Senior Engineer & Engineering Lead

올해로 개발자 생활이 햇수로 20년째다

유용우(요우) NAVER 백엔드 개발자

간만에 재밌게 읽은 기술 포스트 여름 이벤트 관련 개발 회고와 높

이원형 라인플러스 소프트웨어 엔지니어

고용노동부에서 주관하는 청년미래플러스 3기를 모집 중이라고 합니다

장홍석 스페이스오디티 부대표/CPO

< 가장 예쁜 사람이 아니라, 1등 할 사람에게 투표하라 >

골빈해커 Chief Maker

아직 나도 정립되지 않은 상태이긴한데, 실무에서의 바이브 코딩은

석민 커리어 코치

길은 잃은 이력서

SNEW 스뉴 start-up, VC and more

“실리콘밸리의 힘은 개인의 자율과 책임을 극대화한 것에 있다. 이

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

데이터 이력서 템플릿 + 작성 가이드를 사용해보세요.

댓글 0

비슷한 게시물

주간 인기 TOP 10

추천 프로필