업계 네임드 '정성영'님의 AB Test 이야 | 커리어리

업계 네임드 '정성영'님의 AB Test 이야기 AB테스트에서 잘하기 어려운것. 딥다이브. 모 AB테스팅 툴 개발사의 통계에 의하면 실험의 절반 이상이 null, (즉 통계적으로 유의미하지 않기 때문에 본 실험의 가설은 실패하지도, 성공하지도 않았다)의 결과 값을 갖는다고 한다. 설마 겨우 절반이겠냐마는, (개인적으로 천번 넘게 AB테스트를 돌려본 경험을 합산해봐도 타율이 3할이 안나오는데) 쉽게 말해 우리 그로스팀이 이제 막 실험 환경을 구축하고 첫 AB테스트를 돌렸다고 하면, 아마 null 값이 나올 가능성이 꽤 높다는 것이다. 그리고 많은 초보 팀이 이 때 당황을 한다. 실험 환경을 구축하기도, 그 환경에서 data descrepency 이슈를 풀어내기도, 안그래도 피쳐 개발 로드맵 밀려있는데 디자이너/개발자 리소스 투입해서 실험군을 잘 만들기도, 고객들이 화내지 않을거라고 CS팀 설득하고 대응 매뉴얼 만들어주기도, 이게 우리에게 근거기반의 성장을 가져다줄거라고 임원들 설득하기도 어려웠는데 첫 실험부터 null 이라니. 차라리 확실한 실패라도 하면 그건 앞으로 하지 말자라는 배움이라도 있지. 숙련된 그로스팀은 이 때 딥다이브 분석을 한다. 그리고 AB테스트의 결과를 가장 잘 딥다이브 할 수 있는 방법은 바로 세그먼트를 쪼개서 valid learning 또는 통계적 유의한 소그룹을 찾는 것이다. 크게 8가지 도움되는 세그먼트가 있는데 (업종별 차이는 있겠지만, 트래픽 소스 (주로 utm source, campaign 기준) > 방문 빈도 (new vs returning user) > 인게이지먼트 (새싹 회원 vs VVIP) > 데모 (성별, 나이) 순서로 도움이 되더라) 이 중 내 경험상 상대적으로 소홀히들 하시는게 연결 행동 그리고 브라우저 데이터 분석이다. 연결행동은 분기점 전후로 어떤 행동들을 했는가를 flow 차트 (앰플리튜드 기준으로는 pathfinder)로 쪼개는건데, 만약 PDP(상품상세페이지)를 변경한 실험군이 대조군과 primary metric 차이가 거의 없었다고 할 경우, PDP전에 들어오기 전/후에 한 행동으로 세그를 쪼개는 거다. 예를 들어 그냥 product list 에서 상품 클릭해서 PDP 방문한 고객에게는 실험군이 차이를 주지 못했는데, 검색을 통해서 들어온 고객에게는 실험군이 stat-sig win 을 가져왔을 수 있다. 그럼 우린 고민해야 한다. 왜 인앱 검색을 했던 고객은 우리 실험군에 반응 했을까? 소비심리는 뭘까? 브라우저 데이터는 우리가 서버에 저장하기 전에 브라우저 단에서 취합/저장 할 수 있는 정보들이다. MQL(marketing qualified lead) 확보를 위해, 퍼널단에서 다양한 설문/퀴즈 등을 제공하는 경우를 예로 들면 우린 Question 2 번에 Answer 3 번을 한 잠재고객들은 특별하게 실험에 stat-sig win 을 가져왔을 수 있다. 그럼 우린 고민해야 한다. 이 잠재고객들은 어떤 다른 기대를 갖고 있기에 실험에 반응했을까? 너무나도 많은 그로스팀들이 얕은 실험들을 반복적으로 하면서 가설>실험>배움>더 나은 가설 루프의 매력을 맛보지 못하고 포기한다. 딥다이브하는 그로스팀들이 많아졌으면 좋겠다.

2021년 8월 5일 오후 12:06

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!

현직자들의 '진짜 인사이트'가 담긴 업계 주요 소식을 받아보세요.

커리어리 | 일잘러들의 커리어 SNS