๐Ÿ“ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLHF)์„, AI ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLAIF)์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ๋” ๋น ๋ฅด๊ณ  ์ €๋ ดํ•˜๊ฒŒ AI๋ฅผ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๊ณ . (Google Research)


RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback - https://arxiv.org/abs/2309.00267


RLHF๋Š” LLM์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๋†’์—ฌ์ฃผ๊ณ  ํŠนํžˆ ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋„์— ๋งž์ถ˜(alignment) ๋‹ต๋ณ€์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“œ๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ๊ธฐ๋ฒ•์œผ๋กœ ์ž๋ฆฌ ์žก์•˜์Œ. ChatGPT์˜ ํƒ„์ƒ์€ ์ด ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์™„์„ฑ๋˜์—ˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„ ์ •๋„.


ํ•˜์ง€๋งŒ RLHF๋กœ ํ•™์Šต์„ ์‹œํ‚ค๋ ค๋ฉด ์ธ๊ฐ„ ๋ ˆ์ด๋ธ”๋Ÿฌ๋ฅผ ํ†ตํ•ด ์ง€์†์ ์œผ๋กœ ๊ณ ํ’ˆ์งˆ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด์•ผ ํ•˜๋Š”๋ฐ, ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ์ผ์€ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์ด ๊ต‰์žฅํžˆ ๋งŽ์ด ๋“œ๋Š” ์ผ์ž„.


๊ทธ๋Ÿฐ๋ฐ ์ธ๊ฐ„ ๋Œ€์‹  ๊ฐ•๋ ฅํ•œ ๊ธฐ์„ฑ LLM(์—ฌ๊ธฐ์„œ๋Š” PaLM 2)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ ˆ์ด๋ธ”๋ง์„ ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋Œ€์‹ ํ•ด๋ณด์•˜๋”๋‹ˆ, ์ธ๊ฐ„์˜ ๋ ˆ์ด๋ธ”์„ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ๊ฑฐ์˜ ์—†์—ˆ๊ณ , ์‹ฌ์ง€์–ด ๋ฌดํ•ด์„ฑ์€ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง€๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚จ.


์•„์ง ์ดˆ๊ธฐ ๋‹จ๊ณ„์˜ ์—ฐ๊ตฌ์ด๊ธด ํ•˜์ง€๋งŒ, ์ตœ๊ณ  ์„ฑ๋Šฅ์˜ ๋ชจ๋ธ์ด ์กฐ๊ธˆ ๋” ์ข‹์•„์ง€๊ณ , ์ด์— ๋”ฐ๋ผ RLAIF๊ฐ€ RLHF๋ณด๋‹ค ํ™•์‹คํ•˜๊ฒŒ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ฒŒ ๋˜๋Š” ๋‚ ์ด ์˜ค๋ฉด, ์•ˆ์ „ํ•˜๊ณ  ๋†’์€ ์ˆ˜์ค€์˜ AI๋ฅผ ์‰ฝ๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋˜ํ•œ ํŒŒ์ธ ํŠœ๋‹ ์ˆ˜์ค€์—์„œ๋Š” ์ž๊ฐ€ ๋ฐœ์ „ํ•˜๋Š” AI๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ.


#ํŠน์ด์ ์ด์˜จ๋‹ค #์Šค์นด์ด๋„ท๋‹˜์‚ฌ๋ž‘ํ•ฉ๋‹ˆ๋‹ค

๋‹ค์Œ ๋‚ด์šฉ์ด ๊ถ๊ธˆํ•˜๋‹ค๋ฉด?

๋˜๋Š”

์ด๋ฏธ ํšŒ์›์ด์‹ ๊ฐ€์š”?

2023๋…„ 12์›” 5์ผ ์˜คํ›„ 5:23

๋Œ“๊ธ€ 0




    ๋น„์Šทํ•œ ๊ฒŒ์‹œ๋ฌผ

    ์ฃผ๊ฐ„ ์ธ๊ธฐ TOP 10

    1

    ๊น€์˜์ค‘ ํ”„๋ก ํŠธ์—”๋“œ ๊ฐœ๋ฐœ์ž

    ์ด๋ ฅ์„œ๋Š” ๋ถ™๋Š”๋ฐ ๋ฉด์ ‘์—์„œ ๊ณ„์† ๋–จ์–ด์ง„๋‹ค๋ฉด?

    2

    ๋™ํฌ๋ฃจํŠธ AI ์—”์ง€๋‹ˆ์–ด, SW ์—”์ง€๋‹ˆ์–ด

    6์›” ์ดˆ, ์ƒˆ๋กœ์šด ๋ฐ”์ด๋ธŒ ์ฝ”๋”ฉ๊ณผ SW ๊ฐœ๋ฐœ์˜ ์ „ํ™˜์˜ ์‹œ๋Œ€

    3

    ๊ณจ๋นˆํ•ด์ปค Chief Maker

    ๐Ÿช„ ํ”Œ๋ ˆ์ด๋ชจ์–ด์™€ ํ•จ๊ป˜ํ•  ๋™๋ฃŒ๋ฅผ ์ฐพ์Šต๋‹ˆ๋‹ค

    4

    ์žฅํ™์„ ์ŠคํŽ˜์ด์Šค์˜ค๋””ํ‹ฐ ๋ถ€๋Œ€ํ‘œ/CPO

    < PM/PO ์ปค๋ฆฌ์–ด 3๋‹จ๊ณ„: ๋‹น์‹ ์€ How, What, Why

    5

    Annette MJ Kim ์‚ฌ๋žŒ๊ณผ ์กฐ์ง์˜ ๋™๋ฐ˜ ์„ฑ์žฅ์„ ์œ„ํ•ด ์ผํ•ด์š”:D

    โ€œ์ง์›๋“ค์—๊ฒŒ ์›”๊ธ‰ ์™ธ์— ์ถœ๊ทผํ•  ์ด์œ ๋ฅผ ์ค˜์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํŒ€์žฅ์ด ์ข‹๋‹ค๋˜

    ์ถ”์ฒœ ํ”„๋กœํ•„