- YouTube
www.youtube.com
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback - https://arxiv.org/abs/2309.00267
RLHF๋ LLM์ ์ฑ๋ฅ์ ํฌ๊ฒ ๋์ฌ์ฃผ๊ณ ํนํ ์ธ๊ฐ์ ์ ํธ๋์ ๋ง์ถ(alignment) ๋ต๋ณ์ ํ ์ ์๋๋ก ๋ง๋๋ ๋ฐ ํ์์ ์ธ ๊ธฐ๋ฒ์ผ๋ก ์๋ฆฌ ์ก์์. ChatGPT์ ํ์์ ์ด ๊ธฐ๋ฒ์ ํตํด ์์ฑ๋์๋ค๊ณ ํ ์ ์์ ์ ๋.
ํ์ง๋ง RLHF๋ก ํ์ต์ ์ํค๋ ค๋ฉด ์ธ๊ฐ ๋ ์ด๋ธ๋ฌ๋ฅผ ํตํด ์ง์์ ์ผ๋ก ๊ณ ํ์ง ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด์ผ ํ๋๋ฐ, ์ด ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ์ผ์ ์๊ฐ๊ณผ ๋น์ฉ์ด ๊ต์ฅํ ๋ง์ด ๋๋ ์ผ์.
๊ทธ๋ฐ๋ฐ ์ธ๊ฐ ๋์ ๊ฐ๋ ฅํ ๊ธฐ์ฑ LLM(์ฌ๊ธฐ์๋ PaLM 2)์ ์ฌ์ฉํ์ฌ ๋ ์ด๋ธ๋ง์ ํ๋ ๋ฐฉ์์ผ๋ก ๋์ ํด๋ณด์๋๋, ์ธ๊ฐ์ ๋ ์ด๋ธ์ ํตํด ํ์ตํ๋ ๋ฐฉ๋ฒ๊ณผ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ๊ฑฐ์ ์์๊ณ , ์ฌ์ง์ด ๋ฌดํด์ฑ์ ๋ ๋์ ์ฑ๋ฅ์ ๊ฐ์ง๋ ๊ฒ์ผ๋ก ๋ํ๋จ.
์์ง ์ด๊ธฐ ๋จ๊ณ์ ์ฐ๊ตฌ์ด๊ธด ํ์ง๋ง, ์ต๊ณ ์ฑ๋ฅ์ ๋ชจ๋ธ์ด ์กฐ๊ธ ๋ ์ข์์ง๊ณ , ์ด์ ๋ฐ๋ผ RLAIF๊ฐ RLHF๋ณด๋ค ํ์คํ๊ฒ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๊ฒ ๋๋ ๋ ์ด ์ค๋ฉด, ์์ ํ๊ณ ๋์ ์์ค์ AI๋ฅผ ์ฝ๊ฒ ๋ง๋ค ์ ์์ผ๋ฉฐ ๋ํ ํ์ธ ํ๋ ์์ค์์๋ ์๊ฐ ๋ฐ์ ํ๋ AI๋ฅผ ๋ง๋ค ์ ์์ ๊ฒ.
#ํน์ด์ ์ด์จ๋ค #์ค์นด์ด๋ท๋์ฌ๋ํฉ๋๋ค
๋ค์ ๋ด์ฉ์ด ๊ถ๊ธํ๋ค๋ฉด?
์ด๋ฏธ ํ์์ด์ ๊ฐ์?
2023๋ 12์ 5์ผ ์คํ 5:23
๋ฐ
... ๋ ๋ณด๊ธฐ๊ทธ๋ฌ๊ณ ๋ณด๋, ์์ ์๋ ์ ์ฌ ์ง์์์ ํฌ๋ง์ฐ๋ด๋์ด ์์๋๋ฐ ์ธ์ ๊ฐ๋ถํฐ ์ฌ๋ผ์ก๋ค์. ์ ์์ด์ง๊ฑธ๊น์? ์ ์ผ ์ค์ํ๊ฑด๋ฐโฆ
์ฑ์ฉ๊ณผ์ ์ ์ง์์๋ ํ์ฌ์ ์ฅ์์๋ ์์ฒญ๋ ์๊ฐ๊ณผ ๋ ธ๋ ฅ์ด ๋๋๊ฑฐ๋ผ, ํฉ๊ฒฉํ๋๋ฐ ์ฐ๋ด ์์ค์ด ์๋ง์์ ์ทจ์๋๋ฉด ๊ทธ ์์ ๋ ธ๋ ฅ์ด ์ผ๋ง๋ ํ๋ฌดํ๋โฆ