๋ทํ๋ฆญ์ค์์ A/B ํ ์คํธ๋ฅผ ํด์ํ๋ ๋ฒ: ๊ฑฐ์ง ์์ฑ ์ค๋ฅ ์์๋ณด๊ธฐ
PAP
๐ [๋ทํ๋ฆญ์ค์์ A/B ํ ์คํธ๋ฅผ ํด์ํ๋ ๋ฒ] ๋ณธ๋ฌธ์ ์๋น์ค ํ ์คํ ๊ณผ ๊ด๋ จ๋ ํต๊ณ์ ๊ฐ๋ ์ ์ง๊ด์ ์ผ๋ก ์ดํดํ๋ ๊ฒ์ ์ด์ ์ ๋์๊ธฐ ๋๋ฌธ์ ๋ณต์กํ๊ณ ๋จธ๋ฆฌ ์ํ ์ ์๋ ์ํ์ ๊ณ์ฐ์ด ๋น ์ ธ์์ต๋๋ค. ๊ทธ๋์ ์คํ๋ ค ์ง๋๋ฐฐ๊ธฐ ๊ฐ๋ ์์ฒด์ ๋ ์ง์คํ๊ธฐ ์ข๋ค๋ ์๊ฐ์ด ๋ญ๋๋ค. 1. ์ค๋ฅ์ ์ข ๋ฅ A/B ํ ์คํธ ๊ฒฐ๊ณผ๋ฅผ ํด์ํ ๋ ํฌ๊ฒ ๋ ๊ฐ์ง ์ค์๋ฅผ ํ ์ ์์ต๋๋ค. ๋ฐ๋ก Type I: ๊ฑฐ์ง ์์ฑ(false positive), ๊ทธ๋ฆฌ๊ณ Type II: ๊ฑฐ์ง ์์ฑ(false negative) ์ค๋ฅ์ ๋๋ค. ๊ฑฐ์ง ์์ฑ์ ์ธ๊ณผ ์ถ๋ก ์์ ์ฐ๋ฆฌ๊ฐ ์์ํ ๋๋ก ์น๋ฃ๊ตฐ(treatment group)์์ ๋ ๊ธ์ ์ ์ธ ํจ๊ณผ๋ฅผ ๋ณด์์ผ๋, ๊ทธ ์์ธ์ด ์๋ํ์ง ์์๋ ๋ค๋ฅธ ์์ธ ๋๋ฌธ์ธ ๊ฒฝ์ฐ์ ๋๋ค. ์ฆ, ์ค์ treatment๋ ๋ณ ํจ๊ณผ๊ฐ ์์๋๋ฐ ๋ค๋ฅธ ์ด์ ๋๋ฌธ์ ํจ๊ณผ๊ฐ ์๋ ๊ฒ์ฒ๋ผ ๋ณด์ด๋ ์ค์์ ๋๋ค. ๊ฑฐ์ง ์์ฑ์ ๊ทธ์ ๋ฐ๋๋ก treatment์ ํจ๊ณผ๊ฐ ์์์ง๋ง, ํจ๊ณผ๊ฐ ์๋ค๊ณ ์๋ชป ํ๋จํ๋ ์ค์์ ๋๋ค. 2. ๊ฑฐ์ง ์์ฑ, ๋ฐ ํต๊ณ์ ์ ์์ฑ ํ ์คํธ๋ฅผ ์งํํ ๋, ๊ฐ์ค ๋ฐ 1์ฐจ ๊ฒฐ์ ์งํ์ ๋ํ ์ ๋ฆฌ๊ฐ ๋์์ผ๋ฉด ํต๊ณ์ ์ธ ์ธก๋ฉด์ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ์ด ํ๋ก์ธ์ค๋ ๋ณดํต ํ์ฉ ๊ฐ๋ฅํ ๊ฑฐ์ง ์์ฑ ํ์ฉ ๋น์จ(acceptable false positive rate)์ ์ค์ ํ๋ ๊ฒ์ผ๋ก ์์ํฉ๋๋ค. ์ด ๋น์จ์ ํต์์ ์ผ๋ก 5%์ธ๋ฐ, ์ด๋ ๊ณง ์น๋ฃ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ ์ ์๋ฏธํ ์ฐจ์ด๊ฐ ์ค์ ๋ก ์์ ๋ 5%์ ํ๋ฅ ๋ก ํต๊ณ์ ์ ์์ฑ(statistical significance)์ด ์กด์ฌํ๋ค๊ณ ํ๋จํ ์ ์๋ค๋ ๋ง์ ๋๋ค. ์ฆ, 100๋ฒ ์ค 5๋ฒ์ ๊ผด๋ก ์ฐ๋ฆฌ๋ ์ค์ ๋ก ๋ฅ์ด๊ฐ ์๋ ์ฌ์ง์ ๋ณด๊ณ ์ด๊ฒ์ ๋ฅ์ด ์ฌ์ง์ด๋ผ๋ ๊ฒฐ๋ก ์ ๋ด๋ฆฌ๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ์ฐ๋ฆฌ๋ ์ ์์์ค(significance level) 5%๋ก ์ ์ํ๋ค๋ผ๊ณ ์ ์ํฉ๋๋ค. ์ ์์์ค์ p-value์ ๋ฐ์ ํ ๊ด๊ณ๊ฐ ์์ต๋๋ค. p-value๋ ์น๋ฃ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ ์ฐจ์ด๊ฐ ์๋ค๊ณ ๊ฐ์ ํ ๋, ์คํ์ ํตํด ์ป์ ๊ฒฐ๊ณผ์ ๊ฐ๊ฑฐ๋ ๋ ๊ทน๋จ์ ์ธ ๊ฒฝ์ฐ๊ฐ ์ผ์ด๋ ํ๋ฅ ์ ์๋ฏธํฉ๋๋ค. ๊ฐ๋จํ ํ๋ฅ ๊ฒ์์ ํตํด p-value์ ๋ํด ์ข ๋ ์ง๊ด์ ์ผ๋ก ์์๋ณด๊ฒ ์ต๋๋ค. ๋ ์์ธํ ์ฌ๋ก๋ ๋ณธ๋ฌธ์ ์ฐธ๊ณ ํด์ฃผ์ธ์. ์คํ ๋๋ A/B ํ ์คํธ์์ ๋ด๋ฆด ์ ์๋ ๊ฒฐ๋ก ์ ์ด ๋ ๊ฐ์ง: โํจ๊ณผ๊ฐ ์๋ค(๋์ ์ด ๊ณตํํ์ง ์๋ค)โ ๋๋ โํจ๊ณผ๊ฐ ์๋ค๋ ์ฆ๊ฑฐ๊ฐ ์ถฉ๋ถํ์ง ์๋คโ์ ๋๋ค. ์ฌํ์์์ โ์ ์ฃโ ๋๋ โ์ฆ๊ฑฐ ๋ถ์ถฉ๋ถโ๊ณผ ๋น์ทํ์ฃ - ์ฆ๊ฑฐ ๋ถ์ถฉ๋ถ๊ณผ ๊ฒฐ๋ฐฑ์ ์์ฃผ ๋ค๋ฆ ๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก, A/B ํ ์คํธ์์ ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ โํจ๊ณผ๊ฐ ์๋คโ๋ผ๋ ๊ฒฐ๋ก ์ ํ๋ฝํ์ง ์์ต๋๋ค. ๋จ์ง ๊ท๋ฌด ๊ฐ์ค์ ๊ธฐ๊ฐํ ๋งํผ ์ถฉ๋ถํ ์ฆ๊ฑฐ๊ฐ ์๋ค๊ณ ๊ฒฐ๋ก ์ง์ ๋ฟ์ ๋๋ค. ์์ ์์์์ ๋์ ์ 100๋ฒ ๋์ก์ ๋ ์๋ฉด์ด 55%์ธ ๊ฒฝ์ฐ์๋ ๊ณตํํ์ง ์๋ค๊ณ ํ ๋งํ ๊ทผ๊ฑฐ๊ฐ ์ถฉ๋ถํ์ง ์๋ค๋ผ๊ณ ๊ฒฐ๋ก ์ง์์ต๋๋ค. ๊ฒฐ์ฝ ๋์ ์ด ๊ณตํํ๋ค๊ณ ๊ฒฐ๋ก ์ง์ ๊ฒ์ด ์๋๋๋ค. ๋ง์ฝ 100๋ฒ์ด ์๋๋ผ 1000๋ฒ ๋์ก๋ค๋ฉด ๋์ ์ด ๊ณตํํ๋ค๋ ๊ฐ์ค์ ๋ค์ง์ ์ฆ๊ฑฐ๊ฐ ๋์์ ์๋ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. 3. ๊ธฐ๊ฐ์ญ๊ณผ ์ ๋ขฐ ๊ตฌ๊ฐ A/B ํ ์คํธ์์ p-value์ ๋ฐ์ ํ๊ฒ ์ฐ๊ด๋์ด ์๋ ๋ ๊ฐ์ง ์ถ๊ฐ์ ์ธ ๊ฐ๋ ์ด ์์ต๋๋ค. ๋ฐ๋ก ๊ธฐ๊ฐ์ญ(rejection region)๊ณผ ์ ๋ขฐ ๊ตฌ๊ฐ(confidence interval)์ ๋๋ค. ๊ธฐ๊ฐ์ญ์ ๊ท๋ฌด ๊ฐ์ค์ ๊ธฐ๊ฐ์ํฌ ์ ์๋ ๊ฐ์ ์งํฉ์ ๋๋ค. ๊ธฐ๊ฐ์ญ์ ๊ณ์ฐํ๊ธฐ ์ํด์ ๋จผ์ ๊ท๋ฌด ๊ฐ์ค์ด ์ฐธ์ด๋ผ ๊ฐ์ ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ธฐ๊ฐ ์์ญ์ โ๊ด์ฐฐ๋ ํ๋ฅ ์ ํฉ์ด 0.05 ๋ณด๋ค ์ ์, ๊ฐ๋ฅ์ฑ์ด ๊ฐ์ฅ ๋ฎ์ ๊ฒฐ๊ณผ์ ์งํฉโ์ด๋ผ ์ ์ํฉ๋๋ค. ์ฆ, ๊ธฐ๊ฐ์ญ์ ๊ฐ์ค์ด ๋ง๋ค๋ ์ ์ ํ์, ํด๋น ๊ฐ์ค์ ๋ฐ๋๋๋ ์ฆ๊ฑฐ๊ฐ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ์ ๊ตฌ์ฑ์ ๋๋ค. ๊ทธ๋์ ์คํ์ ๊ฒฐ๊ณผ๊ฐ ์ด ์์ญ์ ์ํ๋ฉด ๊ท๋ฌด ๊ฐ์ค์ ๊ธฐ๊ฐํ๊ธฐ์ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ์ฆ๊ฑฐ๊ฐ ์๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ฆฝ๋๋ค. ์ ๋์ ์คํ์์์ ๊ธฐ๊ฐ์ญ์ ์๋ฉด์ด ๋์ฌ ํ๋ฅ ์ด 60% ์ด์, ๋๋ 40% ์ดํ์ธ ๊ฒฝ์ฐ(๊ทธ๋ฆผ 2์ ํ๋ ๋ถ๋ถ)์ ๋๋ค. ๊ธฐ๊ฐ์ญ๊ณผ p-value์ ๊ด๊ณ๋: ๊ด์ฐฐ๋ ๊ฒฐ๊ณผ๊ฐ ๊ธฐ๊ฐ์ญ ์์ ๋จ์ด์ง๋ ๊ฒฝ์ฐ์๋ง p-value๊ฐ 0.05๋ณด๋ค ์๋ค๋ ๊ฒ์ ๋๋ค. ํ์ฌ๊น์ง์ ์ ๊ทผ ๋ฐฉ์์ ๋จผ์ ๊ท๋ฌด ๊ฐ์ค์ ์ธ์ฐ๊ณ , ๊ฐ๋ฅํ ๊ฒฐ๊ณผ ์งํฉ์ ์ ์ํ ํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ๋ ์์์์ต๋๋ค. ํ์ง๋ง ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ํด ์ดํดํ๊ธฐ ์ํด์๋ ๋จผ์ ๊ด์ฐฐ ๊ฒฐ๊ณผ์ ์ง์คํ๋ ๊ฒ์ด ํธํฉ๋๋ค. ๊ทธ๋ค์ โ๊ฑฐ์ง ์์ฑ ํ์ฉ ๋น์จ์ด 5%์ผ ๋ ์ด๋ค ๊ฐ์ด ๊ด์ฐฐ๋์ด์ผ ๊ท๋ฌด ๊ฐ์ค์ด ๊ธฐ๊ฐ๋์ง ์์๊น?โ ํ๋ฒ ์๊ฐํด ๋ณด๋ ๊ฒ์ ๋๋ค. ๋์ ๋์ง๊ธฐ์์ ์๋ฉด์ ๋น์จ์ด 55%์์ ๋ ๊ฐ์ค์ ๊ธฐ๊ฐํ์ง ์์๊ณ , ์๋ง 60% ์ผ ๋๋ ๋ง์ฐฌ๊ฐ์ง์ ๋๋ค. ๊ทธ๋ฆผ 3์ด ๋ณด์ฌ์ฃผ๋ฏ 45%์์ 65% ์ ๋๋ ๊ท๋ฌด ๊ฐ์ค์ด ๊ธฐ๊ฐ๋์ง ์๋ ๋ฒ์์ ๋๋ค. ์ด ๋ฒ์๋ฅผ โ์ ๋ขฐ ๊ตฌ๊ฐโ์ด๋ผ ๋ถ๋ฅด๊ณ , 5% ์ ์ ์์ค์ด๋ผ ๋ฏธ๋ฆฌ ์ ํ๊ธฐ ๋๋ฌธ์ ์ ๋ขฐ ์์ค์ 95%๊ฐ ๋ฉ๋๋ค. ๋ค๋ฅธ ๋ง๋ก ํ์ด๋ณด๋ฉด: ์คํ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ์ ๋, 95%์ ๊ฒฝ์ฐ ์ ๋ขฐ ๊ตฌ๊ฐ ๋ด์ ์ค์ ๊ฐ(๋์ ์๋ฉด์ด ๋์ฌ ์ค์ ํ๋ฅ )์ด ๋ค์ด๊ฐ๋ค๋ ๋ป์ ๋๋ค. ์ ๋ขฐ ๊ตฌ๊ฐ๊ณผ p-value์ ๊ด๊ณ๋: 95% ์ ๋ขฐ๊ตฌ๊ฐ์ p-value๊ฐ 0.05๋ณด๋ค ์์ ๊ฒฝ์ฐ์๋ง ์ค์ ํ๊ท ๊ฐ์ ํฌํจํ์ง ์๊ณ , ์ด ๊ฒฝ์ฐ์ ๊ท๋ฌด ๊ฐ์ค์ ๊ธฐ๊ฐํฉ๋๋ค.
2022๋ 1์ 20์ผ ์คํ 8:59