Community

๐Ÿ“ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLHF)์„, AI ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLAIF)์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ๋” ๋น ๋ฅด๊ณ  ์ €๋ ดํ•˜๊ฒŒ AI๋ฅผ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๊ณ . (Google Research) RLA

๐Ÿ“ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLHF)์„, AI ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLAIF)์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ๋” ๋น ๋ฅด๊ณ  ์ €๋ ดํ•˜๊ฒŒ AI๋ฅผ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๊ณ . (Google Research) RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback - https://arxiv.org/abs/2309.00267 RLHF๋Š” LLM์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๋†’์—ฌ์ฃผ๊ณ  ํŠนํžˆ ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋„์— ๋งž์ถ˜(alignment) ๋‹ต๋ณ€์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“œ๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ๊ธฐ๋ฒ•์œผ๋กœ ์ž๋ฆฌ ์žก์•˜์Œ. ChatGPT์˜ ํƒ„์ƒ์€ ์ด ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์™„์„ฑ๋˜์—ˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„ ์ •๋„. ํ•˜์ง€๋งŒ RLHF๋กœ ํ•™์Šต์„ ์‹œํ‚ค๋ ค๋ฉด ์ธ๊ฐ„ ๋ ˆ์ด๋ธ”๋Ÿฌ๋ฅผ ํ†ตํ•ด ์ง€์†์ ์œผ๋กœ ๊ณ ํ’ˆ์งˆ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด์•ผ ํ•˜๋Š”๋ฐ, ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ์ผ์€ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์ด ๊ต‰์žฅํžˆ ๋งŽ์ด ๋“œ๋Š” ์ผ์ž„. ๊ทธ๋Ÿฐ๋ฐ ์ธ๊ฐ„ ๋Œ€์‹  ๊ฐ•๋ ฅํ•œ ๊ธฐ์„ฑ LLM(์—ฌ๊ธฐ์„œ๋Š” PaLM 2)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ ˆ์ด๋ธ”๋ง์„ ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋Œ€์‹ ํ•ด๋ณด์•˜๋”๋‹ˆ, ์ธ๊ฐ„์˜ ๋ ˆ์ด๋ธ”์„ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ๊ฑฐ์˜ ์—†์—ˆ๊ณ , ์‹ฌ์ง€์–ด ๋ฌดํ•ด์„ฑ์€ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง€๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚จ. ์•„์ง ์ดˆ๊ธฐ ๋‹จ๊ณ„์˜ ์—ฐ๊ตฌ์ด๊ธด ํ•˜์ง€๋งŒ, ์ตœ๊ณ  ์„ฑ๋Šฅ์˜ ๋ชจ๋ธ์ด ์กฐ๊ธˆ ๋” ์ข‹์•„์ง€๊ณ , ์ด์— ๋”ฐ๋ผ RLAIF๊ฐ€ RLHF๋ณด๋‹ค ํ™•์‹คํ•˜๊ฒŒ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ฒŒ ๋˜๋Š” ๋‚ ์ด ์˜ค๋ฉด, ์•ˆ์ „ํ•˜๊ณ  ๋†’์€ ์ˆ˜์ค€์˜ AI๋ฅผ ์‰ฝ๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋˜ํ•œ ํŒŒ์ธ ํŠœ๋‹ ์ˆ˜์ค€์—์„œ๋Š” ์ž๊ฐ€ ๋ฐœ์ „ํ•˜๋Š” AI๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ. #ํŠน์ด์ ์ด์˜จ๋‹ค #์Šค์นด์ด๋„ท๋‹˜์‚ฌ๋ž‘ํ•ฉ๋‹ˆ๋‹ค

์•Œ๋ฆผ

์•Œ๋ฆผ์ด ์—†์Šต๋‹ˆ๋‹ค