A/B ํ ์คํธ์ ํ์ฅํ, MAB (Multi-Armed Bandits) ์๊ณ ๋ฆฌ์ฆ
Be Geeky
๐ญ A/B ํ ์คํธ๋ ๊ณ ๊ฐ๋ง๋ค A์๊ณผ B์์ ๋ค๋ฅด๊ฒ ๋ณด์ฌ์ฃผ๊ณ ๋ฐ์์ด ๋ ์ข์ ์์ ์ ํํ๋ ํ ์คํธ๋ค. A/B ํ ์คํธ์์ 'ํ์(Exploration)์ ๋ฌธ์ '๋ ํ ์คํธ๋ฅผ ํ๋ฉด ํ ์๋ก ๊ธฐํ ๋น์ฉ์ด ๋ฐ์ํ๋ ๊ฒ์ด๋ค. 'ํ์ฉ(Exploitation)์ ๋ฌธ์ '๋ ํ ์คํธ ๊ธฐ๊ฐ์ด ์งง์ผ๋ฉด ํ๋ณธ์ด ์์์ง๋ฏ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ ๋ขฐํ ์ ์๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ A/B ํ ์คํธ์๋ ํ์-ํ์ฉ ์ฌ์ด์ trade-off๊ฐ ์กด์ฌํ๋ค. ๐ฐ ์ด ๋ฌธ์ ๋ฅผ ์ฒด๊ณํํ ๊ฒ์ธ MAB(Multi Armed Bandit) ์๊ณ ๋ฆฌ์ฆ์ด๋ค. MAB๋ ํ์๊ณผ ํ์ฉ์ ์ต์ ํํ์ฌ ๋งค๋ฒ ์์ต๋ฅ ์ด ๋์ ๊ฒ์ผ๋ก ์์๋๋ ์ฌ๋กฏ๋จธ์ ์ ์ ํํด ์์ต๋ฅ ์ ๊ทน๋ํํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ๐งฎ MAB์์ ํ๋(action)์ ์ ํ๋ ๋์, ๋ณด์(reward)๋ ํ ๋ฒ์ ํ๋์ ๋ฐ๋ฅธ ์์นํ๋ ๊ฒฐ๊ณผ, ๊ฐ์น(value)๋ ํ๋์ผ๋ก ์ธํ ๊ธฐ๋ ๋ณด์์ ์๋ฏธํ๋ค. MAB์์๋ ๋ชจ๋ ํ๋์ด ์์๋๋ก ๋ฐ์ํ๋ค ๊ฐ์ ํ๊ณ ๊ฐ ์์ ์์์ ๋ณด์ ๋ฐ ๊ฐ์น๋ฅผ ๊ณ์ฐํ๋ค. ๐ป ํ์๊ณผ ํ์ฉ์ ์ต์ ํํ๋ ๊ณผ์ ์ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ ์ ์๋ค. ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ ๊ทธ๋ฆฌ๋(Greedy) ์๊ณ ๋ฆฌ์ฆ, ์ ์ค๋ก -๊ทธ๋ฆฌ๋(Epsilon-Greedy) ์๊ณ ๋ฆฌ์ฆ, UCB(Upper Confidence Bound), ํฐ์จ ์ํ๋ง(Thompson Sampling) ๋ฑ์ด ์๋ค. ๐ก A/B ํ ์คํธ์ ํ์ฅํ์ด๋ผ๋ ์ ๋ชฉ์ ํฅ๋ฏธ๊ฐ ์๊ฒจ์ ์ฝ์ด๋ณธ ํฌ์คํธ. ๊ฐํํ์ต ๋ถ์ผ์์๋ ๋ง์ด ์ฌ์ฉ๋๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๊ณ ํ๋ค. ์์ง ์๋ฒฝํ๊ฒ MAB๊ฐ ๋ฌด์์ธ์ง๋ ์ดํดํ์ง ๋ชปํ์ง๋ง, ๊ทธ๋๋ ํฅ๋ฏธ๋ก์ด ์ด๋ก ์ธ ๊ฒ ๊ฐ๋ค.
2021๋ 10์ 6์ผ ์คํ 11:59