[A/B테스트의 방법론] 흔히 A/B테스트는 검증하고자 하는 요소의 하나만 변경하여 진행하는 게 옳은 방법이라고 여겨진다. 이를테면 색상만 바꾸거나, CTA만 바꾸거나 어찌되었든 하나만 바꾸어야 결
[A/B테스트의 방법론] 흔히 A/B테스트는 검증하고자 하는 요소의 하나만 변경하여 진행하는 게 옳은 방법이라고 여겨진다. 이를테면 색상만 바꾸거나, CTA만 바꾸거나 어찌되었든 하나만 바꾸어야 결과를 정확하게 파악할 수 있기 때문이다. n개의 요소를 바꾸어서 유의미한 변화가 일어났는데, 과연 어떤 요소에서의 변화가 가장 영향력이 있었는지 알 수 없기 때문이다. [넷플릭스의 A/B테스트 방법론] 그러나 넷플릭스는 동시에 7개의 커버이미지를 바꿔가면서 A/B테스트를 한다. A/B테스트가 아니라 A/B/C/D/E/F/G테스트인 셈이다. 어떤 요소가 어떤 결과를 일으키는지 정확하게 확인할 길이 없는데도, 넷플릭스는 왜 이런 방식으로 테스트를 하는 걸까? 개인적인 경험으로는 3가지 이유라고 추정해본다. 1. A/B테스트에서 딱 한 가지 요소만 테스트하려면, 최적화까지 오랜 시간이 걸린다는 점이다. - 개선해야할 것은 많은데, 이번엔 CTA 바꿔보고 다음엔 색상을 바꿔보고 다음엔 상세 내용을 바꿔보고... 어느 세월에 가장 최적의 안을 찾을 수 있을까? - 또 같은 요소라고 하더라도, 한 번의 테스트로 만족할만한 결과를 얻으리라는 보장은 없다. CTA를 두 번, 세 번, 네 번 바꾸더라도 언제나 더 나은 대안이 있을 것이다. 2. A/B테스트 기간에 confounding 이 발생할 수도 있다. - 상황을 가정해보자. 마케팅 활동은 복합적이고 변동이 심하다. n개의 요소를 하나하나 테스트 해야 하는데, 그 기간에 Budget 을 크게 늘리거나 줄이거나 해야 하는 이슈가 발생한다면 어떨까? - 나는 Before After 테스트를 말하는 게 아니다. 물론 A/B테스트는 B/A테스트 보다 confounding 에서 안전하지만, 100% 안전하다고 할 수는 없다. 이를테면 앱스토어의 메인 이미지의 1차 테스트가 끝나고, 2차 테스트를 진행한다고 해보자. 2차 테스트 시에는 캠페인 budget이 크게 늘어났다. 2차 테스트 시의 이미지를 썼을 때 앱설치와 가입자가 늘었다. 그렇다면 1차 이미지보다 2차 이미지의 효과가 더 좋은걸까? 아니면 캠페인 budgeting의 결과일까? 알 수가 없다는 점이다. 3. 어차피 A/B 테스트의 최종 목적은 요소요소의 결과 확인이 아니라는 점이다. - 요소 하나 하나를 테스트하고 유의미한 결과를 얻었다 치자. "이 매체는 빨간색이 먹혀". "이런 스타일의 이미지를 써야해"라는 인사이트를 얻었다. 그런데 그 요소의 임팩트가 얼마나 큰 가? 그 결과가 다음에도 동일하게 먹힐까? 알 수 없다. - 결국 A/B 테스트는 특정한 지표 상승을 목표로 이루어지는 활동이다. 이를테면 그게 유입 대비 가입률이라고 하자. n개의 요소를 복합적으로 변화시켜 다양한 버전으로 동시에 테스트해서, 가입률이 가장 좋은 버전을 빠르게 찾는다면 그게 더 시간 효율적인 일이다. 법칙처럼 언제나 같은 결과를 얻는다는 보장도 없는 단 한 개 요소에서의 인사이트를 얻기 위해 많은 시간을 쓸 필요가 없는 이유다. 어쩌면 일반적으로 이해되는 A/B의 방법론은, 지엽적인 요소 하나의 효율을 검증하는데에만 몰두하는 비효율적인 방법이 될 수도 있다. 스타트업처럼 시간이 중요한 곳이나, 변화가 빠른 업종의 경우라면 기존의 방법론을 뒤집어 생각해볼 필요도 있겠다. 우리는 좁쌀에 광낼 시간이 없다.