๐[์ ๋ขฐํ ์ ์๋ ์คํ ๋ถ์์ ์ํด ๋ฐ์ดํฐ ํ๋ฆฌํฐ ์ฑ๊ธฐ๊ธฐ] (์ฌ๋ด์์ ์คํ ํ๋ซํผ์ ๋ง๋ค๊ธฐ ์ํด ๋์ ํ๊ณ ์์ด, ๊ฐ์ธ์ ์ผ๋ก ์ ๋ง ์ข์ํ๋ ๊ธ์ ๋๋ค.) A/B ํ ์คํธ์ ๊ฐ์ ์ ํ ์คํ์ ์์ฃผ
๐[์ ๋ขฐํ ์ ์๋ ์คํ ๋ถ์์ ์ํด ๋ฐ์ดํฐ ํ๋ฆฌํฐ ์ฑ๊ธฐ๊ธฐ] (์ฌ๋ด์์ ์คํ ํ๋ซํผ์ ๋ง๋ค๊ธฐ ์ํด ๋์ ํ๊ณ ์์ด, ๊ฐ์ธ์ ์ผ๋ก ์ ๋ง ์ข์ํ๋ ๊ธ์ ๋๋ค.) A/B ํ ์คํธ์ ๊ฐ์ ์ ํ ์คํ์ ์์ฃผ ์คํํ๋ ์กฐ์ง์ผ์๋ก, ์คํ ๋ถ์ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ๋ค์ ์ก์ ์ด ๋น ๋ฅด๊ฒ ๊ฒฐ์ ๋ฉ๋๋ค. ์คํ ๋ถ์์์ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ ๋ฌด์์ผ๊น์? Microsoft Research ์์๋ ์ ๋ขฐํ ์ ์๋ ์คํ ๋ถ์์ ์ํด์๋ ๋ฐ์ดํฐ ํ๋ฆฌํฐ๊ฐ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ฐ์ถฐ์ค์ผ ํ๋ค๊ณ ์ด์ผ๊ธฐํฉ๋๋ค. ์ด ๊ธ์ Microsoft Experimentation Platform ํ์์ ์๊ฐํ๋ โData Quality: Fundamental Building Blocks for Trustworthy A/B testing Analysisโ ๋ฅผ ๋ฐํ์ผ๋ก ์์ฑ๋์์ต๋๋ค. ์ ๋ขฐํ ์ ์๋ A/B ํ ์คํธ ๋ถ์์ ์ํด ๋ฐ์ดํฐ ํ๋ฆฌํฐ๋ฅผ ํ์ธํ ์ ์๋ ๋๊ตฌ์ ๋ฐฉ๋ฒ๋ก ์ ์ดํด๋ด ๋๋ค. 1. ๋ฐ์ดํฐ ํ๋ฆฌํฐ๋ A/B ํ ์คํธ์ ์ด๋ค ์ํฅ์ ๋ผ์น ๊น? ๐ฃSample Ratio Mismatch (SRM, ์ํ ๋น์จ ๋ถ์ผ์น) SRM ์ ์คํ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ ํ ๋น๋ ํธ๋ํฝ์ด ๊ตฌ์ฑํ๋ ๋ฐฉ์๊ณผ ๋ค๋ฅธ ๊ฒฝ์ฐ๋ก, Selection bias (์ ํ ํธํฅ)์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก SRM ์ด ๋ฐ์ํ ๋ถ์์ ์ ๋ขฐํ ์ ์๋ ๊ฒ์ผ๋ก ๋ณด๊ธฐ ๋๋ฌธ์ ์ด๋ ํ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๋ฐ ์ฌ์ฉํด์๋ ์๋ฉ๋๋ค. ๋ฐ์ดํฐ ํ๋ฆฌํฐ ์ด์๋ก ์ธํด SRM ์ด ๋ฐ์ํ ์ ์๋ ์๋๋ฆฌ์ค๋ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์๊ฒฉ์์ ์คํ๊ตฐ/๋์กฐ๊ตฐ ํ ๋น ์ ๋ณด์ ๋ถ์์ ํ ๊ธฐ๋ก์ด๋ ๋ถ๊ท ํํ ์์ค ๋ฑ์ด ์๊ฒ ์ต๋๋ค. ๐ฃSTEDI of metrics A/B ํ ์คํธ์์ ์ธก์ ํ๋ ์งํ๋ Treatment effect (์ฒ์น ํจ๊ณผ)๋ฅผ ์ดํดํ๊ณ ๊ด์ฐฐ๋ ์งํ ๋ณํ๋ฅผ ํด์ํ๋ ๋ฐ ๋์์ด ๋๋๋ก Sensitive(๋ฏผ๊ฐ), Trustworthy(์ ๋ขฐ), Efficient(ํจ์จ), Debuggable(๋๋ฒ๊น ๊ฐ๋ฅ), Interpretable(ํด์ ๊ฐ๋ฅ) ํด์ผ ํฉ๋๋ค. ๋ฎ์ ๋ฐ์ดํฐ ํ๋ฆฌํฐ๋ ํนํ ์งํ์ Sensitivity(๋ฏผ๊ฐ๋)์ Trustworthiness(์ ๋ขฐ๋)์ ๋ถ์ ์ ์ธ ์ํฅ์ ๋ฏธ์น ์ ์์ต๋๋ค. ๐ฃSensitivity (๋ฏผ๊ฐ๋) ๋ฐ์ดํฐ ํ๋์ ๊ฒฐ์ธก๋ฅ ์ด ๋งค์ฐ ๋์ผ๋ฉด ์ด ๋ฐ์ดํฐ ํ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์กฐ๊ฑด๋ถ ๊ณ์ฐ ๋ฉํธ๋ฆญ์ ์ํ ํฌ๊ธฐ๊ฐ ๋งค์ฐ ์์ต๋๋ค. ์ด๋ฌํ ์งํ์ ๋ํ ๊ฐ์ค ๊ฒ์ ์ ๊ฒ์ ๋ ฅ์ด ๋ถ์กฑํ ๊ฒ์ ๋๋ค. ์ด์์น๋ ๋ฏผ๊ฐ๋์ ๋ถ์ ์ ์ธ ์ํฅ์ ๋ฏธ์น ์ ์๋ ๋ ๋ค๋ฅธ ํํ ๋ฌธ์ ์ ๋๋ค. ์ด์์น๋ ๋ถ์ฐ์ ์ฆ๊ฐ์ํค๊ณ ์งํ๋ฅผ ๋ณํ์ํค๋ ํฐ ๋ ธ์ด์ฆ๋ฅผ ๋ง๋ค ์๋ ์์ต๋๋ค. ๐ฃTrustworthiness (์ ๋ขฐ๋) ๊ฒฐ์ธก ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ์งํ๋ ์๋ชป๋ ํต๊ณ๋๊ณผ ์ ๋ขฐํ ์ ์๋ ๊ฐ์ค ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์ฌ ์ ์์ต๋๋ค. ์คํ๊ตฐ๊ณผ ๋์กฐ๊ตฐ ์ฌ์ด์ ๋๋ฝ๋ ๋ฐ์ดํฐ ๋น์จ์ด ๋ถ๊ท ํํ ๋์๋ ์ํฉ์ด ๋ ์ฌ๊ฐํ๋ฐ์, ๋ฆฌํ ์ ๋ถ์์์ ๋ฐ์ดํฐ ๋๋ฝ์ ์ค์ ์ฌ์ฉ์๊ฐ ์ดํ์ ํ์ง ์์์์๋ ๋ถ๊ตฌํ๊ณ ๋ฆฌํ ์ ์งํ๋ฅผ ๋ฎ์ถ ์๋ ์์ต๋๋ค. ๋ค์ํ ์ธ๊ทธ๋จผํธ์ ๋ํ ์ฌ์ธต ๋ถ์์ด ํ์ํ ์ํฉ ํน์ ์ธ๊ทธ๋จผํธ์ ์ฌ์ฉ๋๋ ํ๋๊ฐ ๋ถ์ ํํ๊ฑฐ๋ ๊ฒฐ์ธก๋ฅ ์ด ๋์ ๊ฒฝ์ฐ ์ด๋ฌํ ์ธ๊ทธ๋จผํธ์ ๊ธฐ๋ฐํ ๊ฒฐ๊ณผ๋ ์คํด์ ์์ง๊ฐ ์์ ์ ์์ต๋๋ค. ๐ฃ๋ถ์ ๊ฒฐ๊ณผ ์ ๋ฌ ์ง์ฐ โ ์์ฌ ๊ฒฐ์ ์ง์ฐ ํต๊ณ ๋ถ์์ ์์ ํ ๋ฐ์ดํฐ์ ์์กดํฉ๋๋ค. ์ํํธ์จ์ด ์ ํ์์๋ ์ผ๋ฐ์ ์ผ๋ก ๋ฐ์ดํฐ ์์ฑ๊ณผ, ๋ถ์์ ์ํ ๋ฐ์ดํฐ ์ค๋น ์ฌ์ด์ ์ง์ฐ์ด ๋ฐ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๊ฐ์ค ๊ฒ์ฆ์ ์ํด ์ฌ๋ฌ ๋ฐ์ดํฐ ์์ค๊ฐ ํ์ํ ๊ฒฝ์ฐ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉ ๊ฐ๋ฅํ ๋๊น์ง ๊ธฐ๋ค๋ฆฌ๋ ์๊ฐ์ ์๋นํ ๊ธธ ์ ์์ต๋๋ค. ๋ถ์์ด ๋ฆ์ด์ง๋ฉด ์์ฌ๊ฒฐ์ ๋ํ ๋ฆ์ด์ง ์ ์์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ํ ๊ฒฝํ์์ ์์์น ๋ชปํ regression ์ ๋ฐ๋ก ๊ฐ์งํ๊ฑฐ๋ ๊ณ ์น ์๊ฐ ์์ต๋๋ค. ์ด๋ฌํ ์ํฉ์ ๋ฐฉ์งํ๋ ค๋ฉด Service Level Agreements ๋ฅผ ์ถฉ์กฑํ๋, ์ ์ค๊ณ๋ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ด ๋งค์ฐ ์ค์ํฉ๋๋ค. 2. ๋ฐ์ดํฐ ํ๋ฆฌํฐ๋ฅผ ์ํด ๊ฐ์ฅ ์ค์ํ ์ฒดํฌ๋ฆฌ์คํธ๋? ๐ฃMissing rates (๊ฒฐ์ธก๋ฅ ) ๊ฐ ์ปฌ๋ผ์์ ๋๋ฝ๋ ๊ฐ์ ์ผ๋ง๋ ์๋์ง? dummy value ๋ก ๊ฒฐ์ธก์น๋ฅผ ๋ํ๋ด๋ ํน์ ํจํด์ด ์๋์ง? ๐ฃInvalid values (๋ถ์ ์ ํ ๊ฐ) ๊ฐ์ด ์ ์ ํ ํ์์ ๋ฐ๋ฅด๊ณ ์๋์ง? ํด๋น ์ปฌ๋ผ์ ๋ง๋ ๊ฐ์ธ์ง? ๐ฃJoin rates (์กฐ์ธ ์ ํ๋) ๋ค๋ฅธ ๋ฐ์ดํฐ ์์ค์์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ ํฉ์น ๊ฒฝ์ฐ join rate ์ด ์ถฉ๋ถํ ๋์์ง? ๐ฃUniqueness (๊ณ ์ ์ฑ) ์ค๋ณต ํญ๋ชฉ์ด ์๋์ง? ๋์ผํ signal ์ ๋ํ ์ด์ด ๋ ๊ฐ ์ด์ ์๋์ง? ๐ฃData delays (๋ฐ์ดํฐ ์ง์ฐ) ๊ณ์ฐ ์ ์ฌ์ฉํ ์ ์๋ ๋ฐ์ดํฐ์ ๋น์จ์ด ์ด๋ป๊ฒ ๋๋์ง? ์ด๋ฒคํธ๊ฐ ๊ธฐ๋ก๋ ์์ ๊ณผ ๋ฐ์ดํฐ๋ฅผ ๋ถ์์ ์ฌ์ฉํ ์ ์๋ ์์ ์ฌ์ด์ ์๊ฐ์ด ์ผ๋ง๋ ๊ฑธ๋ฆฌ๋์ง? ์ด์ธ์๋ ๋ฐ์ดํฐ ๋ณด์กด ๊ธฐ๊ฐ ๋ฐ ๊ฐ์ธ ์ ๋ณด ๋ณดํธ ์๊ตฌ ์ฌํญ์ ํฌํจํ ๋ฐ์ดํฐ ์ ์ฑ ์ ์ค์ํ๊ณ ์๋์ง ํ์ธํด์ผ ํฉ๋๋ค. 3. ๋ฐ์ดํฐ ํ๋ฆฌํฐ๋ฅผ ๊พธ์คํ ๋ชจ๋ํฐ๋งํ ์ ์๋ ๋ฐฉ๋ฒ์? ๐ฃDashboard for data quality metrics ์ฃผ๊ธฐ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํด์ผ ํฉ๋๋ค. ์์ง ๋น๋๋ ์๊ฐ๋ณ, ์ผ๋ณ, ์ฃผ๋ณ ๋๋ ์ฌ์ฉ์ ์ง์ ๋น๋์ผ ์ ์์ต๋๋ค. ๋ฐ์ดํฐ ํ๋ฆฌํฐ์ ๋ณํ ๋น๋์, ๊ณ์ฐ ๋ฐ ์คํ ๋ฆฌ์ง ๋น์ฉ ์์ฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค. ๐ฃAlerting on anomalies ์ด์ ์งํ์ ๋ํ ๊ฒฝ๊ณ ๋ฅผ ์ค์ ํ๋ฉด ๋ฐ์ดํฐ ํ๋ฆฌํฐ๋ฅผ ์ธก์ ํ๋ ๋ฉํธ๋ฆญ์ ๋น์ ์์ ์ธ ๋ณํ๋ฅผ ํ์งํ๋ ๋ฐ ๋์์ด ๋ ์ ์์ต๋๋ค. ์์ค ๋ฐ์ดํฐ ๋๋ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ์ ๋น์ ์์ ์ธ ์์ ์ ๋ํ๋ผ ์ ์์ต๋๋ค. ๐ฃSegment data quality metrics ๋ฐ์ดํฐ ํ๋ฆฌํฐ๋ฅผ ์ธก์ ํ๋ ๋ฉํธ๋ฆญ์ ์ผ๋ฐ์ ์ธ ๋ฉํธ๋ฆญ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๋์ผํ ์ธ๊ทธ๋จผํธ๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ณ์ฐํด์ผ ํฉ๋๋ค. ๋๋ก๋ ์ธ๊ทธ๋จผํธ ๋ด์์ ๋ฐ์ดํฐ ํ๋ฆฌํฐ๊ฐ ํฌ๊ฒ ์ ํ๋ ์ ์์ง๋ง ์ ์ฒด์ ์ผ๋ก๋ ์ฐจ์ด๊ฐ ๊ฑฐ์ ์์ ์ ์์ต๋๋ค. ๐ฃA/A test A/A ํ ์คํธ๋ ์คํ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์์ ๋์ผํ ๊ฒฝํ์ ๊ฐ๋ A/B ํ ์คํธ์ ๋๋ค. A/A ํ ์คํธ ์คํ์ A/B ํ ์คํธ ์์คํ ์ end-to-end ํ ์คํธ์ ๊ถ์ฅ๋๋ ์ ๊ทผ ๋ฐฉ์์ด๋ฉฐ ๋ฐ์ดํฐ ํ๋ฆฌํฐ ๋ฌธ์ ๋ฅผ ํ์ ํ๋ ๋ฐ ๋์์ด ๋ ์ ์์ต๋๋ค. A/A ํ ์คํธ๋ ํต๊ณ์ ์ผ๋ก ์ ์ํ ๋ฉํธ๋ฆญ ๋ณ๊ฒฝ ์์ด variants ๊ฐ ํธ๋ํฝ ๋ถํ ์ ๊ท ํ ์๊ฒ ์ํํ ๊ฒ์ ๋๋ค. SRM ๋๋ ์๊ธฐ์น ์์ ๋ฉํธ๋ฆญ ์ด๋์ด ์๋ ๊ฒฝ์ฐ๋ ์๊ฒฉ ์ธก์ ๋๋ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ ๊ตฌํ ๊ด๋ จ ๋ฌธ์ ๋๋ฌธ์ผ ์ ์์ต๋๋ค.