๐ LLM ํ์ต์ ์์ผ๋ก ์ฌํ ํ๋ จ์ด ๋ ์ค์ํ ๊ฒ
ํ์ฌ GPT-4์ ELO ์ ์๋ ์๋ ์ถ์๋ ๋ฒ์ ๋ณด๋ค ์ฝ 100์ ๋ ๋์๋ฐ์. OpenAI ๊ณต๋ ์ฐฝ์ ์์ธ John Schulman๊ณผ์ ์ธํฐ๋ทฐ์ ๋ฐ๋ฅด๋ฉด GPT-4๊ฐ 1๋ ์ ๋ณด๋ค "๋ ๋๋ํด์ง" ์ด์ ๋ ๋ณต์กํ ์ฌํ ํ๋ จ(Post-training) ๋๋ถ์ด๋ผ๊ณ ํฉ๋๋ค. ์ด๋ฅผ ๋ํ๋ด๋ ๊ฒ ์ค ํ๋๋ GPT-4 ๋ชจ๋ธ์์ ์์ฑ๋ ์ถ๋ ฅ์ด ์น์ ์๋ ๋๋ถ๋ถ์ ์ฝํ ์ธ ๋ณด๋ค ํ์ง์ด ๋ ๋๋ค๋ ๊ฒ์ธ๋ฐ์. ๋ฐ๋ผ์ ๋จ์ํ ์น์ ์๋ ๋ด์ฉ์ ๋ชจ๋ฐฉํ๋๋ก ํ๋ จ๋ฐ๋ ๊ฒ๋ณด๋ค ๋ชจ๋ธ์ด ์ค์ค๋ก ์๊ฐํ๋๋ก ํ๋ ๊ฒ์ด ๋ ์๋ฏธ๊ฐ ์๋ค๊ณ ํฉ๋๋ค. ํ์ฌ ๋ง์ ํ์ฌ๋ค์ด ์ฌ์ ํ๋ จ(Pre-training)์ ์ง์คํด์, ๋ ๋ง์ ๋ฐ์ดํฐ์ ์ํคํ ์ฒ์ ๋ํ ์ฐ๊ตฌ๋ฅผ ๋ง์ด ํ๊ณ ์๋๋ฐ์. ์ด๋ ์ด์ ๋ฐฉ๋ฒ๋ก ๋ค์ด ๋ง์ด ๋์คํ ๋์๊ณ , ๋ ๊ณต๊ฐ๋ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ๋ค์ด ๋ง์์ก๊ธฐ ๋๋ฌธ์ ์ด๋ป๊ฒ ๋ณด๋ฉด ์๋นํ ์ฌ์ด ์ผ์ด ๋์์ต๋๋ค. ํ์ง๋ง ์ฌํ ํ์ต์ ์๋ฌต์ ์ธ ์ง์์ด ๋ง์ด ํ์ํ๊ณ , ์ด์ ์๋ จ๋ ์ธ๋ ฅ์ด ๋ง์ด ํ์ํ ๋งค์ฐ ๋ณต์กํ ์์ ์ด๊ธฐ ๋๋ฌธ์ ์ด ๋ถ๋ถ์ด ํ์ฌ ๊ฐ์ฅ ์ด๋ ต๊ณ ํ๋ ์ผ๋ก, ๊ธฐ์ ์ฅ๋ฒฝ์ ํฌ๊ฒ ๋ง๋๋ ์ผ์ด๋ผ๊ณ ํฉ๋๋ค. ๋ฐ๋ผ์ ์์ผ๋ก ์ฌ์ ํ๋ จ๋ณด๋ค ์ฌํ ํ๋ จ์ ๋ ๋ง์ ์ปดํจํ ์์์ ์ฐ๊ฒ ๋ ์๋ ์๋ค๊ณ ํฉ๋๋ค. John Schulman๊ฐ OpenAI์ Post-training Lead์ธ ๋งํผ ์ฌํ ํ๋ จ์ ํธํฅ๋ ์๊ฒฌ์ ๋ผ ์ ์๊ธดํ์ง๋ง, OpenAI์ ๊ณต๋ ์ฐฝ์ ์ง์ด๊ธฐ๋ ํ๋ ๊น๊ฒ ์๊ฐํด ๋ณผ ํ์๊ฐ ์๋ ๊ฒ ๊ฐ์ต๋๋ค.