<실무에서 'p-value' 바라보기> ⭐️ 전환율 통계적 분석 방법 이야기 💁‍♂️ 통계적 유의성을 통한 전환율 해석 A/B 테스트는 가장 보편화 된 데이터 기반의 마케팅 중 하나입니다. 실무에서 대개 A/B 테스트를 진행하게 되면 실험군과 대조군의 목표 전환율의 차이가 두드러지게 나타날 경우 결과에 대한 해석이 명확하지만 그 차이가 크지 않거나, 크거나 작다고 판단하기 어려울 때 통계적 유의성을 판단하는 방법을 시도해 볼 수 있습니다. 이 때 우리는 'p-value'라는 개념을 통해서 통계적 유의성을 판단할 수 있습니다. 🙋‍♂️통계적 유의성과 p-value를 간단하게 이해합시다. '통계적 유의성(Statistical Significance)' : 실험(또는 기존 데이터에 대한 연구) 결과가 우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법 'p-value' :우연 때문이라는 가설이 일어날 확률을 의미하며, 보통 p-value 값이 0.05가 넘으면 우연히 일어날 확률이 높다는 의미로 해석되며, 이것은 결국 우연 때문이라는 가설이 채택되어 '통계적 유의성을 갖지 않는다'라고 판단해 볼 수 있습니다. 🙎‍♂️p-value를 이용한 A/B Test 'p-value'를 이용한 통계 검정은 보통 사람이 A와 B를 테스트 할 때, 'A안과 B안은 차이가 있다.' 라고 해석하는 경향을 감안하여, 'A안과 B안은 차이가 없다'라는 반대의 가설을 기본 가정으로 설정하여, 그 가설이 틀렸다는 것을 입증해 A안과 B안의 차이가 우연이 아니라는 것을 보여주는 방식으로 접근합니다. 👉 p-value 기준 문제는 이러한 실험을 수행하더라도 이 가설을 기각할 것인지 채택할 것인지 완벽하게 결정할 수 없습니다. 왜냐하면, 우리가 실험을 통해 얻은 결과도 표본에서 얻은 데이터이므로 항상 오차가 생깁니다. 이 때 발생하는 오류를 크게 1종 오류와 2종 오류로 구분해볼 수 있습니다. ⚠️ 1종 오류 : 어떤 효과가 우연히 발생한 것인데, 그것이 사실이라고 잘못 판단하는 경우 ⚠️ 2종 오류 : 어떤 효과가 실제로 있는 것인데, 그것이 우연히 발생한 것이라고 잘못 판단하는 경우 보통 1종 오류를 2종 오류보다 더 위험하게 판단합니다. 그러나 2종 오류가 더 위함한 경우도 있는데, 바로 암을 진단할 때 암이 있는데 없다고 하는 오류(2종 오류)가 암이 없는데 있다고 하는 오류(1종 오류)보다 치명적인 것이 바로 그 예입니다. 이러한 예를 제외하고 일반적으로 데이터 기반 마케팅에서는 2종 오류는 어떤 오류라기보다 표본크기가 너무 작아서 효과를 알아낼 수 없다고 판단하는게 일반적이고, 유의성 검정(가설 검정)의 기본 기능은 어쩌다 우연히 일어난 일에 속지 않도록 하는 것입니다. 따라서 보통 1종 오류를 최소화하도록 가설을 설계한다고 보시면 됩니다. 이 때, 1종 오류에 대한 기준을 5% 또는 1%로 보는데, 오류에 대한 기준을 5%라고 했을 때 우리는 'p-value < 0.05' 로 표현하고, 이 임계값을 '알파(유의수준)'이라고 부릅니다. 🤔실무에서 p-value를 이용하여 결과를 분석해봅시다 마케터가 타겟 마케팅에서 효과적인 오퍼를 설계하고 싶다고 가정해보겠습니다. 그리고 각 오퍼를 받는 타겟 대상그룹 A, B의 구매 전환율의 차이를 통해 오퍼의 효과성을 검증한다고 하겠습니다. 이 때, 귀무가설(두 오퍼의 차이가 없다)이 일어날 확률이 0.05보다 큰 지 작은 지를 살펴봅니다. 결과는 0.0027이라면 귀무가설은 차이가 0이므로 확률 분포의 중심은 0이 됩니다. 이를 정규분포를 사용하여 그리면, 두 그룹의 차이가 속한 영역은 0.0342이고 이는 두 그룹의 차이가 없는데 있다고 할 오류 수준 0.05보다 낮습니다. 즉, 귀무가설(두 오퍼의 차이가 없다)은 기각이 되고, 두 그룹의 차이는 통계적으로 유의하다고 판단할 수 있습니다. 만약 앞서의 결과와 달리 두 결과의 차이가 0.0017를 보인다고 했을 때, 같은 방법으로 정규분포를 나타내면 p-value는 0.117로 유의수준(알파)인 0.05보다 크게 나타납니다. 이 땐 귀무가설은 채택되고 두 그룹의 차이는 통계적으로 유의하지 않다고 판단할 수 있습니다. 😢표본의 크기가 커지면 p-value가 작아질 가능성이 높아진다. 위 타겟팅을 1~2회가 아닌 지속적으로 진행하여 결과 데이터를 모으면, 두 실험군의 표본 크기는 자연스럽게 커지게 됩니다. 이 때 표본 크기가 커지면 표본 오차라는 것이 작아지고, 결과적으로 p-value가 작아질 가능성이 높아집니다. 즉, 통계적 유의성을 갖는 <0.05일 가능성이 생깁니다. 따라서, 단순히 p-value가 0.05보다 작으면 통계적으로 유의해라는 단순한 결론 내리기를 지양해야 합니다. 😩그래서 어쩌라고?! p-value를 실무에서 다루다보면 '그래서 어쩌라고?!' 라는 말이 스스로 떠오르기도 하고, 자칫 누군가에게 들을 수도 있습니다. 마케터가 실험의 결과인 구매 전환율 차이 0.17%를 바라보면서, 과연 의미가 있는 것인가? 라는 의구심을 가질 수 있습니다. 만약 대상 고객이 1,000명인 것과 1,000,000명일 때 0.17%는 비즈니스적 관점에서는 큰 차이가 있을 수 있습니다. 즉, 1천명일 때 반응으로 인한 매출 증분과 100만명일 때 반응으로 인한 매출 증분은 동일하게 통계적 유의미를 갖더라도 비즈니스에서는 전자는 의미를 갖기 어렵다고 볼 수 있습니다. [p-value에 대한 의문] ✔︎ 두 그룹의 차이가 비슷해 보이는데 통계적 유의한 차이를 얻는게 좋은가? ✔︎ 실험 기간을 늘려서 표본 크기를 임의로 키워도 되는가? ✔︎ 적절한 표본 크기가 있을까? 💁‍♂️ 적절한 표본 크기 정하는 법 앞서 비즈니스적인 관점도 중요하지만 그렇다고 하여 단순히 화폐적 가치만으로 환산하여 결과를 바라보는 것도 좋진 않습니다. 대신 우리는 적절한 표본 크기에 대해 고민을 할 수 있습니다. 위에서 잠깐 언급한 '2종 오류'는 효과가 없는데 있다고 판단할 오류로 보통 표본 크기로 인해 생기는 오류라고 말씀을 드렸습니다. 우리는 2종 오류를 '1-β' 로 표현하며, '있는데 없다고 판단할 오류'의 여사건 개념으로 '효과가 있는데 있다고 판단할 능력'으로 해석할 수 있습니다. 즉, 이를 우리는 '검정력(power)'라고 부르는데 일반적으로 검정력은 0.8로 설정을 합니다. 여기서 튀어나온 0.8이라는 것은 효과가 실제로 있을 때 효과가 있다고 판단할 가능성이 0.8이라는 의미로 쉽게 말하면 2종 오류를 범하지 않을 확률을 의미합니다. ❌ p-value에 대한 오해 p-value가 유의미하다고 해서 그것이 바로 '증거'가 되는 것은 아닙니다. 2016년 미국통계협회는 p-value에 대한 오해를 밝히며, 6가지 원칙을 강조하였습니다. 1. p-value는 이 데이터가 특정 통계 모델과 얼마나 상반되는지 나타낼 수 있다. 2. p-value는 연구 가설이 사실일 확률이나, 데이터가 랜덤하게 생성되었을 확률을 측정하는 것이 아니다. 3. 과학적 결론, 비즈니스나 정책 결정은 p-value가 특정 임계값을 통과하는지 여부를 기준으로 해서는 안된다. 4. 적절한 추론을 위해서는 완전한 보고와 투명성이 요구된다. 5. p-value 또는 통계적 유의성은 효과의 크기나 결과의 중요성을 의미하지 않는다. 6. p-value 그 자체는 모델이나 가설에 대한 증거를 측정하기 좋은 지표가 아니다. 결론적으로 다시 이야기를 해보면 실무에서는 p-value는 실험 결과에 관련된 정보의 일부로 받아들여야 합니다. 사실 실무에서는 실험 규모를 정하는 것이 현실적으로 어려울 수 있습니다. 실험에 소요되는 비용이 발생하므로 오히려 과도한 실험이 낭비가 되고, 잘못된 의사결정을 이끌 수 있다는 점도 주의해야 합니다. 그러나 p-value와 검정력을 통해 실험 결과를 적절히 해석하고 이를 실무, 비즈니스 관점에서의 효용을 찾는 것이 무엇보다 중요하다고 생각합니다. [참고자료] A/B 테스트에서 p-value에 휘둘리지 않기 https://boxnwhis.kr/2016/04/15/dont_be_overwhelmed_by_pvalue.html

데이터 마케팅 공부방 (best.in.all) : 네이버 블로그

Naver

데이터 마케팅 공부방 (best.in.all) : 네이버 블로그

2021년 12월 2일 오후 2:45

댓글 0