<실무에서 'p-value' 바라보기> ⭐️ 전환율 통계적 분석 방법 이야기 💁‍♂️ 통계적 유의성을 통한 전환율 해석 A/B 테스트는 가장 보편화 된 데이터 기반의 마케팅 중 하나입니다. 실무에서 대개 A/B 테스트를 진행하게 되면 실험군과 대조군의 목표 전환율의 차이가 두드러지게 나타날 경우 결과에 대한 해석이 명확하지만 그 차이가 크지 않거나, 크거나 작다고 판단하기 어려울 때 통계적 유의성을 판단하는 방법을 시도해 볼 수 있습니다. 이 때 우리는 'p-value'라는 개념을 통해서 통계적 유의성을 판단할 수 있습니다. 🙋‍♂️통계적 유의성과 p-value를 간단하게 이해합시다. '통계적 유의성(Statistical Significance)' : 실험(또는 기존 데이터에 대한 연구) 결과가 우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법 'p-value' :우연 때문이라는 가설이 일어날 확률을 의미하며, 보통 p-value 값이 0.05가 넘으면 우연히 일어날 확률이 높다는 의미로 해석되며, 이것은 결국 우연 때문이라는 가설이 채택되어 '통계적 유의성을 갖지 않는다'라고 판단해 볼 수 있습니다. 🙎‍♂️p-value를 이용한 A/B Test 'p-value'를 이용한 통계 검정은 보통 사람이 A와 B를 테스트 할 때, 'A안과 B안은 차이가 있다.' 라고 해석하는 경향을 감안하여, 'A안과 B안은 차이가 없다'라는 반대의 가설을 기본 가정으로 설정하여, 그 가설이 틀렸다는 것을 입증해 A안과 B안의 차이가 우연이 아니라는 것을 보여주는 방식으로 접근합니다. 👉 p-value 기준 문제는 이러한 실험을 수행하더라도 이 가설을 기각할 것인지 채택할 것인지 완벽하게 결정할 수 없습니다. 왜냐하면, 우리가 실험을 통해 얻은 결과도 표본에서 얻은 데이터이므로 항상 오차가 생깁니다. 이 때 발생하는 오류를 크게 1종 오류와 2종 오류로 구분해볼 수 있습니다. ⚠️ 1종 오류 : 어떤 효과가 우연히 발생한 것인데, 그것이 사실이라고 잘못 판단하는 경우 ⚠️ 2종 오류 : 어떤 효과가 실제로 있는 것인데, 그것이 우연히 발생한 것이라고 잘못 판단하는 경우 보통 1종 오류를 2종 오류보다 더 위험하게 판단합니다. 그러나 2종 오류가 더 위함한 경우도 있는데, 바로 암을 진단할 때 암이 있는데 없다고 하는 오류(2종 오류)가 암이 없는데 있다고 하는 오류(1종 오류)보다 치명적인 것이 바로 그 예입니다. 이러한 예를 제외하고 일반적으로 데이터 기반 마케팅에서는 2종 오류는 어떤 오류라기보다 표본크기가 너무 작아서 효과를 알아낼 수 없다고 판단하는게 일반적이고, 유의성 검정(가설 검정)의 기본 기능은 어쩌다 우연히 일어난 일에 속지 않도록 하는 것입니다. 따라서 보통 1종 오류를 최소화하도록 가설을 설계한다고 보시면 됩니다. 이 때, 1종 오류에 대한 기준을 5% 또는 1%로 보는데, 오류에 대한 기준을 5%라고 했을 때 우리는 'p-value < 0.05' 로 표현하고, 이 임계값을 '알파(유의수준)'이라고 부릅니다. 🤔실무에서 p-value를 이용하여 결과를 분석해봅시다 마케터가 타겟 마케팅에서 효과적인 오퍼를 설계하고 싶다고 가정해보겠습니다. 그리고 각 오퍼를 받는 타겟 대상그룹 A, B의 구매 전환율의 차이를 통해 오퍼의 효과성을 검증한다고 하겠습니다. 이 때, 귀무가설(두 오퍼의 차이가 없다)이 일어날 확률이 0.05보다 큰 지 작은 지를 살펴봅니다. 결과는 0.0027이라면 귀무가설은 차이가 0이므로 확률 분포의 중심은 0이 됩니다. 이를 정규분포를 사용하여 그리면, 두 그룹의 차이가 속한 영역은 0.0342이고 이는 두 그룹의 차이가 없는데 있다고 할 오류 수준 0.05보다 낮습니다. 즉, 귀무가설(두 오퍼의 차이가 없다)은 기각이 되고, 두 그룹의 차이는 통계적으로 유의하다고 판단할 수 있습니다. 만약 앞서의 결과와 달리 두 결과의 차이가 0.0017를 보인다고 했을 때, 같은 방법으로 정규분포를 나타내면 p-value는 0.117로 유의수준(알파)인 0.05보다 크게 나타납니다. 이 땐 귀무가설은 채택되고 두 그룹의 차이는 통계적으로 유의하지 않다고 판단할 수 있습니다. 😢표본의 크기가 커지면 p-value가 작아질 가능성이 높아진다. 위 타겟팅을 1~2회가 아닌 지속적으로 진행하여 결과 데이터를 모으면, 두 실험군의 표본 크기는 자연스럽게 커지게 됩니다. 이 때 표본 크기가 커지면 표본 오차라는 것이 작아지고, 결과적으로 p-value가 작아질 가능성이 높아집니다. 즉, 통계적 유의성을 갖는 <0.05일 가능성이 생깁니다. 따라서, 단순히 p-value가 0.05보다 작으면 통계적으로 유의해라는 단순한 결론 내리기를 지양해야 합니다. 😩그래서 어쩌라고?! p-value를 실무에서 다루다보면 '그래서 어쩌라고?!' 라는 말이 스스로 떠오르기도 하고, 자칫 누군가에게 들을 수도 있습니다. 마케터가 실험의 결과인 구매 전환율 차이 0.17%를 바라보면서, 과연 의미가 있는 것인가? 라는 의구심을 가질 수 있습니다. 만약 대상 고객이 1,000명인 것과 1,000,000명일 때 0.17%는 비즈니스적 관점에서는 큰 차이가 있을 수 있습니다. 즉, 1천명일 때 반응으로 인한 매출 증분과 100만명일 때 반응으로 인한 매출 증분은 동일하게 통계적 유의미를 갖더라도 비즈니스에서는 전자는 의미를 갖기 어렵다고 볼 수 있습니다. [p-value에 대한 의문] ✔︎ 두 그룹의 차이가 비슷해 보이는데 통계적 유의한 차이를 얻는게 좋은가? ✔︎ 실험 기간을 늘려서 표본 크기를 임의로 키워도 되는가? ✔︎ 적절한 표본 크기가 있을까? 💁‍♂️ 적절한 표본 크기 정하는 법 앞서 비즈니스적인 관점도 중요하지만 그렇다고 하여 단순히 화폐적 가치만으로 환산하여 결과를 바라보는 것도 좋진 않습니다. 대신 우리는 적절한 표본 크기에 대해 고민을 할 수 있습니다. 위에서 잠깐 언급한 '2종 오류'는 효과가 없는데 있다고 판단할 오류로 보통 표본 크기로 인해 생기는 오류라고 말씀을 드렸습니다. 우리는 2종 오류를 '1-β' 로 표현하며, '있는데 없다고 판단할 오류'의 여사건 개념으로 '효과가 있는데 있다고 판단할 능력'으로 해석할 수 있습니다. 즉, 이를 우리는 '검정력(power)'라고 부르는데 일반적으로 검정력은 0.8로 설정을 합니다. 여기서 튀어나온 0.8이라는 것은 효과가 실제로 있을 때 효과가 있다고 판단할 가능성이 0.8이라는 의미로 쉽게 말하면 2종 오류를 범하지 않을 확률을 의미합니다. ❌ p-value에 대한 오해 p-value가 유의미하다고 해서 그것이 바로 '증거'가 되는 것은 아닙니다. 2016년 미국통계협회는 p-value에 대한 오해를 밝히며, 6가지 원칙을 강조하였습니다. 1. p-value는 이 데이터가 특정 통계 모델과 얼마나 상반되는지 나타낼 수 있다. 2. p-value는 연구 가설이 사실일 확률이나, 데이터가 랜덤하게 생성되었을 확률을 측정하는 것이 아니다. 3. 과학적 결론, 비즈니스나 정책 결정은 p-value가 특정 임계값을 통과하는지 여부를 기준으로 해서는 안된다. 4. 적절한 추론을 위해서는 완전한 보고와 투명성이 요구된다. 5. p-value 또는 통계적 유의성은 효과의 크기나 결과의 중요성을 의미하지 않는다. 6. p-value 그 자체는 모델이나 가설에 대한 증거를 측정하기 좋은 지표가 아니다. 결론적으로 다시 이야기를 해보면 실무에서는 p-value는 실험 결과에 관련된 정보의 일부로 받아들여야 합니다. 사실 실무에서는 실험 규모를 정하는 것이 현실적으로 어려울 수 있습니다. 실험에 소요되는 비용이 발생하므로 오히려 과도한 실험이 낭비가 되고, 잘못된 의사결정을 이끌 수 있다는 점도 주의해야 합니다. 그러나 p-value와 검정력을 통해 실험 결과를 적절히 해석하고 이를 실무, 비즈니스 관점에서의 효용을 찾는 것이 무엇보다 중요하다고 생각합니다. [참고자료] A/B 테스트에서 p-value에 휘둘리지 않기 https://boxnwhis.kr/2016/04/15/dont_be_overwhelmed_by_pvalue.html

데이터 마케팅 공부방 (best.in.all) : 네이버 블로그

blog.naver.com

데이터 마케팅 공부방 (best.in.all) : 네이버 블로그

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2021년 12월 2일 오후 2:45

댓글 0

    함께 읽은 게시물

    MZ가 신상이 아니라 중고 명품에 관심을 갖고 지갑을 본격적으로 연다면서 그 이유를 분석했는데, 그 중 몇몇을 추리면 MZ가 친환경 의식이 높고 소유보다는 '경험'을 추구하고 사용성이라는 소비자 가치를 중시해서라고 그렇단다. 솔직히 그건 그냥 끼워맞춘 것으로 밖에 안보인다. 아무리 넉넉한 마음을 갖고 봐도 아주 매우 지극히 극히 일부는 그럴 수 있다 이해해도 결국 명품 갖고 싶으니깐 핑계에 이유를 붙인거에 가까워보인다.

    ... 더 보기

    "비싼 명품 안 사요" MZ 돌변하더니…'2500억' 몰린 회사

    naver.me

    "비싼 명품 안 사요" MZ 돌변하더니…'2500억' 몰린 회사

    채용담당자이자 영업사원인 나, 그럼.. 내 고객은?

    🎬지난 이야기
    대기업 채용은 지원자들에게 줄 게 많습니다. 지원자들도 넘쳐나죠. 하지만 대기업 울타리를 벗어난 채용은 어떨까요? 지원자 수 '0'을 마주한 채용담당자는 마음을 고쳐 먹었습니다. -이제 나는 영업사원이다-라고...

    ... 더 보기

    조회 49


    < 쿠팡의 창업자를 직접 보며 배운 것: 리더의 크기가 전부다 >

    1

    ... 더 보기

     • 

    댓글 1 • 저장 17 • 조회 1,524


    챗GPT가 대중적으로 등장해서 화제몰이를 시작했던 2년여전, 얼리어댑터들의 챗GPT 사용행태를 보고 챗GPT에 가장 먼저 큰 영향을 받을 서비스가 검색서비스/포털서비스라고 이야기해왔는데, 이제 그게 현실로 증명된 결과가 나왔다. 챗GPT 계열의 서비스를

    ... 더 보기

    구글 검색 점유율 10년만에 90%붕괴…머스크 “AI가 검색 대체”

    동아일보

    구글 검색 점유율 10년만에 90%붕괴…머스크 “AI가 검색 대체”

    🍆컬리의 상품위원회 현장을 공개합니다

    ... 더 보기

    - YouTube

    youtu.be

     - YouTube

    조회 171


    무기가 되는 일터의 질문들 (ft.마케터 숭 인터뷰)

    ... 더 보기

    사용자가 공유한 콘텐츠

    www.folin.co

    사용자가 공유한 콘텐츠