๐[์ํ ์ฌ์ด์ฆ ๊ณ์ฐ๊ธฐ์ ์จ์ด์๋ ํต๊ณ ์ด์ผ๊ธฐ] A/B ํ ์คํธ๋ฅผ ์งํํ๊ธฐ ์์ ๋ ๊ณ ๋ฏผ๋๋ ๊ฒ์ โ์ ์ ํ ์ํ ์ฌ์ด์ฆ๋ ์ผ๋ง์ผ๊น?โ์ผ ๊ฒ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๊ณ ๋ฏผ์ ํด๊ฒฐํด์ฃผ๊ธฐ ์ํด ์น์๋ ์๋นํ
๐[์ํ ์ฌ์ด์ฆ ๊ณ์ฐ๊ธฐ์ ์จ์ด์๋ ํต๊ณ ์ด์ผ๊ธฐ] A/B ํ ์คํธ๋ฅผ ์งํํ๊ธฐ ์์ ๋ ๊ณ ๋ฏผ๋๋ ๊ฒ์ โ์ ์ ํ ์ํ ์ฌ์ด์ฆ๋ ์ผ๋ง์ผ๊น?โ์ผ ๊ฒ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๊ณ ๋ฏผ์ ํด๊ฒฐํด์ฃผ๊ธฐ ์ํด ์น์๋ ์๋นํ ๋ง์ ์์ A/B ํ ์คํธ ์ํ ์ฌ์ด์ฆ ๊ณ์ฐ๊ธฐ๊ฐ ๊ณต๊ฐ๋์ด ์์ต๋๋ค. ์ซ์๋ฅผ ์ ๋ ฅํ๋ฉด ์ํ ์ฌ์ด์ฆ๊ฐ ์ถ๋ ฅ๋๋๋ฐ, ๋๋์ฒด ์ด๋ป๊ฒ ์ํ ์ฌ์ด์ฆ๊ฐ ๊ตฌํด์ง๋ ๊ฒ์ธ์ง ๊ถ๊ธํ๋ ๋ถ๋ค์ด ์์ ๊ฒ์ ๋๋ค. 1. p-Hacking ํต๊ณ์ ๊ฐ์ค ๊ฒ์ ์ ์ํํ ๋๋ P๊ฐ(p-value)์ ์ด์ฉํ์ฌ ๊ด์ต์ ์ผ๋ก P๊ฐ์ด 0.05๋ณด๋ค ์์ ๊ฒฝ์ฐ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ๊ฒ์ผ๋ก ๊ฐ์ฃผํฉ๋๋ค. p-hacking์ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ์ ์์์ค(P < 0.05)๋ณด๋ค ๋ฎ์ P๊ฐ์ ์ป๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ์ ๋ณํ๊ฑฐ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ๋ ๋ฑ์ ์์ ์ ํ๋ ๊ฒ์ ๋งํฉ๋๋ค. ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ์ง ์๋๋ผ๋ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก p-value ๊ฐ์ ์ํฅ์ ์ค ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ ํต๊ณ์ ๋ถํฌ์์ ์ถ์ถํ ๋ฐ์ดํฐ ํฌ์ธํธ(data point)๋ค์ด ์๋ค๊ณ ๊ฐ์ ํด๋ด ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ํตํด ๊ตฌํ p-value๊ฐ 0.05๋ณด๋ค ์ฝ๊ฐ ํฐ 0.06์ด๋ผ๊ณ ํด๋ด ์๋ค. ์ด ๋ ์๋์ ๊ฐ์ด, ๊ฐ ๊ทธ๋ฃน์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ํ๋์ฉ ์ถ๊ฐํ ๋ค์ ํ๊ท ์ ๋ค์ ๊ตฌํ๊ณ , p-value๋ฅผ ๋ค์ ๊ตฌํฉ๋๋ค. ์ด ๊ฒฝ์ฐ ๊ธฐ์กด๋ณด๋ค ๋ ๋ฎ์ p-value๋ฅผ ๊ตฌํ๊ณ , ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ด๋ผ ์ ์์ต๋๋ค. ํ์ง๋ง ์ ๋ง๋ก ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ๊ฒ์ด ์๋๋ผ p-hacking์ ํด๋นํฉ๋๋ค. ์คํ์ ์งํํ ๋๋ ์ด์ ์ ์ฌํ ์ํฉ์ด ๋ฐ์ํ ์ ์์ต๋๋ค. ๋ฐ๋ก ํต๊ณ์ ์ผ๋ก ์ ์ํ์ง ์์ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๊ณ ๋ ์คํ์ ์ง์ํ๋ ๊ฒฝ์ฐ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์คํ์ ์งํํ์ฌ ์ป์ p-value ๊ฐ์ด 0.06์ด๋ผ๊ณ ๊ฐ์ ํด๋ด ์๋ค. ์ฌ์ ์ ์ค์ ํ ์ ์์์ค์ด 0.05๋ผ๊ณ ํ ๋, ํต๊ณ์ ์ผ๋ก ์ ์ํ์ง ์์ต๋๋ค. ํ์ง๋ง ์คํ์ ์ค๋จํ๋ ๋์ ์คํ์ ๋ ์ง์ํ๊ธฐ๋ก ํฉ๋๋ค. ๊ฒฐ๊ตญ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ค์ ํ์ธํ ๊ฒฐ๊ณผ, p-value ๊ฐ์ผ๋ก 0.04๋ฅผ ์ป์ต๋๋ค. ์ด ๊ฒฝ์ฐ ํต๊ณ์ ์ผ๋ก ์ ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค๊ณ ๋ง๋ฅ ์ข์ํด์๋ ์ ๋ฉ๋๋ค. P๊ฐ์ ํ๋ณธ ์์ ์ํฅ์ ๋ฐ๊ธฐ ๋๋ฌธ์ ๋๋ค. ํ๋ณธํ๊ท ์ฐจ์ด๊ฐ ๋์ผํ๋ค๊ณ ํ ๋ ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก p-value๋ ์์์ง๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก ๋ฎ์ p-value ๊ฐ์ด ํญ์ ์๋ฏธ ์๋ค๊ณ ์๊ฐํด์๋ ์ ๋ฉ๋๋ค. ์ ๊ฒฝ์ฐ ๋ถ์ํ ์๋๋ฅผ ๊ฐ์ง๊ณ p-value๋ฅผ ์กฐ์ํ ๊ฒ์ ์๋์ง๋ง ์๋์น ์๊ฒ p-value์ ์ํฅ์ ์ค ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ณธ ์์ ๋ฐ๋ผ ์คํ์ ํต๊ณ์ ์ ์์ฑ์ ์คํํ ์ ์์ผ๋ฏ๋ก ์ ์ ํ ์ํ ์ฌ์ด์ฆ๋ฅผ ์คํ์ ์์ ๊ฒฐ์ ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ์ํด ํ์ํ ๊ฒ์ด ๊ฒ์ ๋ ฅ ๋ถ์(power analysis)์ ๋๋ค. 2. Power Analysis ๊ฒ์ ๋ ฅ ๋ถ์์ 4๊ฐ์ง ์ธ์(factor)์ ์ํฅ์ ๋ฐ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์๋ 4๊ฐ์ง ์ธ์ ์ค 3๊ฐ์ง ์ธ์๊ฐ ๊ฒฐ์ ๋์์ ๋ ๋๋จธ์ง ํ๋์ ๋ณ์ ๊ฐ์ ๊ตฌํ๋ ๋ถ์์ ๋๋ค. - ํต๊ณ์ ๊ฒ์ ๋ ฅ(statistical power): ๋๋ฆฝ๊ฐ์ค(alternative hypothesis)์ด ์ฌ์ค์ผ ๋ ๊ท๋ฌด๊ฐ์ค(null hypothesis)์ ๊ธฐ๊ฐ(reject)ํ ํ๋ฅ - ์ํ ์ฌ์ด์ฆ(sample size): ์ฃผ์ด์ง ๊ฒ์ ๋ ฅ(power)์ ๋ณด์ฅํ๊ธฐ ์ํด ํ์ํ ์ต์ํ์ ๊ด์ธก์น ์ - ์ ์ ์์ค(Significance level): ๊ท๋ฌด๊ฐ์ค(null hypothesis)์ด ์ฌ์ค์์๋ ์ด๋ฅผ ๊ธฐ๊ฐ(reject)ํ ํ๋ฅ - ํจ๊ณผ ํฌ๊ธฐ(effect size): ๋น๊ตํ๋ ค๋ ์ง๋จ ์ฌ์ด์ ์ผ๋ง๋ ์ฐจ์ด๊ฐ ์๋์ง๋ฅผ ๋ํ๋ด์ฃผ๋ ์งํ 4๊ฐ์ง ์ธ์ ์ค ํนํ ์ฃผ๋ชฉํด์ผ ํ ๊ฒ์ด ํจ๊ณผ ํฌ๊ธฐ์ ๋๋ค. ๊ทธ ์ด์ ๋ ์คํ์ ํต๊ณ์ ์ ์์ฑ๋ ์ค์ํ์ง๋ง, ๋น์ฆ๋์ค์์์ ํจ๊ณผ ํฌ๊ธฐ๋ ์ค์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์๋์ ๊ฐ์ ์คํ ๊ฒฐ๊ณผ๊ฐ ๋์์ ๋๋ ํต๊ณ์ ์ผ๋ก ์ ์ํ๋๋ผ๋, ์ค์ ๋น์ฆ๋์ค์์์ ํจ๊ณผ ํฌ๊ธฐ ์ฆ ๊ตฌ๋งค์ ํ์จ์์์ ์ฐจ์ด๋ ํฌ์ง ์์ต๋๋ค. ๋ง์ ํธ๋ํฝ์ด ๋ฐ์ํ๋ ์๋น์ค์ ๊ฒฝ์ฐ ์์ ๋น์จ์ ์์น์ผ๋ก๋ ํฐ ๋น์ฆ๋์ค ํจ๊ณผ๋ก ์ด์ด์ง ์ ์์ง๋ง, ํธ๋ํฝ์ด ๊ทธ๋ ๊ฒ ํฌ์ง ์์ ์๋น์ค์ ๊ฒฝ์ฐ ๋์ฑ ํฐ ๋น์จ์ ์์น์ด ์์ด์ผ ์๋ฏธ ์๋ ๋น์ฆ๋์ค ํจ๊ณผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก ๊ฐ์ ๋น์ฆ๋์ค ์ํฉ๊ณผ ์คํ์ ๋ชฉํ๋ฅผ ๊ณ ๋ คํ์ฌ A/B ํ ์คํธ ์ํ ์ฌ์ด์ฆ ๊ณ์ฐ๊ธฐ์ โMinimum Detectable Effectโ๋ฅผ ์ค์ ํด์ผ๊ฒ ์ต๋๋ค. ๋ ์์ธํ ๋ด์ฉ์ ์๋ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์.