RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback - https://arxiv.org/abs/2309.00267
RLHF๋ LLM์ ์ฑ๋ฅ์ ํฌ๊ฒ ๋์ฌ์ฃผ๊ณ ํนํ ์ธ๊ฐ์ ์ ํธ๋์ ๋ง์ถ(alignment) ๋ต๋ณ์ ํ ์ ์๋๋ก ๋ง๋๋ ๋ฐ ํ์์ ์ธ ๊ธฐ๋ฒ์ผ๋ก ์๋ฆฌ ์ก์์. ChatGPT์ ํ์์ ์ด ๊ธฐ๋ฒ์ ํตํด ์์ฑ๋์๋ค๊ณ ํ ์ ์์ ์ ๋.
ํ์ง๋ง RLHF๋ก ํ์ต์ ์ํค๋ ค๋ฉด ์ธ๊ฐ ๋ ์ด๋ธ๋ฌ๋ฅผ ํตํด ์ง์์ ์ผ๋ก ๊ณ ํ์ง ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด์ผ ํ๋๋ฐ, ์ด ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ์ผ์ ์๊ฐ๊ณผ ๋น์ฉ์ด ๊ต์ฅํ ๋ง์ด ๋๋ ์ผ์.
๊ทธ๋ฐ๋ฐ ์ธ๊ฐ ๋์ ๊ฐ๋ ฅํ ๊ธฐ์ฑ LLM(์ฌ๊ธฐ์๋ PaLM 2)์ ์ฌ์ฉํ์ฌ ๋ ์ด๋ธ๋ง์ ํ๋ ๋ฐฉ์์ผ๋ก ๋์ ํด๋ณด์๋๋, ์ธ๊ฐ์ ๋ ์ด๋ธ์ ํตํด ํ์ตํ๋ ๋ฐฉ๋ฒ๊ณผ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ๊ฑฐ์ ์์๊ณ , ์ฌ์ง์ด ๋ฌดํด์ฑ์ ๋ ๋์ ์ฑ๋ฅ์ ๊ฐ์ง๋ ๊ฒ์ผ๋ก ๋ํ๋จ.
์์ง ์ด๊ธฐ ๋จ๊ณ์ ์ฐ๊ตฌ์ด๊ธด ํ์ง๋ง, ์ต๊ณ ์ฑ๋ฅ์ ๋ชจ๋ธ์ด ์กฐ๊ธ ๋ ์ข์์ง๊ณ , ์ด์ ๋ฐ๋ผ RLAIF๊ฐ RLHF๋ณด๋ค ํ์คํ๊ฒ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๊ฒ ๋๋ ๋ ์ด ์ค๋ฉด, ์์ ํ๊ณ ๋์ ์์ค์ AI๋ฅผ ์ฝ๊ฒ ๋ง๋ค ์ ์์ผ๋ฉฐ ๋ํ ํ์ธ ํ๋ ์์ค์์๋ ์๊ฐ ๋ฐ์ ํ๋ AI๋ฅผ ๋ง๋ค ์ ์์ ๊ฒ.
#ํน์ด์ ์ด์จ๋ค #์ค์นด์ด๋ท๋์ฌ๋ํฉ๋๋ค
๋ค์ ๋ด์ฉ์ด ๊ถ๊ธํ๋ค๋ฉด?
์ด๋ฏธ ํ์์ด์ ๊ฐ์?
2023๋ 12์ 5์ผ ์คํ 5:23