๐Ÿ“ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLHF)์„, AI ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLAIF)์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ๋” ๋น ๋ฅด๊ณ  ์ €๋ ดํ•˜๊ฒŒ AI๋ฅผ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๊ณ . (Google Research)


RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback - https://arxiv.org/abs/2309.00267


RLHF๋Š” LLM์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๋†’์—ฌ์ฃผ๊ณ  ํŠนํžˆ ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋„์— ๋งž์ถ˜(alignment) ๋‹ต๋ณ€์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“œ๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ๊ธฐ๋ฒ•์œผ๋กœ ์ž๋ฆฌ ์žก์•˜์Œ. ChatGPT์˜ ํƒ„์ƒ์€ ์ด ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์™„์„ฑ๋˜์—ˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„ ์ •๋„.


ํ•˜์ง€๋งŒ RLHF๋กœ ํ•™์Šต์„ ์‹œํ‚ค๋ ค๋ฉด ์ธ๊ฐ„ ๋ ˆ์ด๋ธ”๋Ÿฌ๋ฅผ ํ†ตํ•ด ์ง€์†์ ์œผ๋กœ ๊ณ ํ’ˆ์งˆ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด์•ผ ํ•˜๋Š”๋ฐ, ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ์ผ์€ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์ด ๊ต‰์žฅํžˆ ๋งŽ์ด ๋“œ๋Š” ์ผ์ž„.


๊ทธ๋Ÿฐ๋ฐ ์ธ๊ฐ„ ๋Œ€์‹  ๊ฐ•๋ ฅํ•œ ๊ธฐ์„ฑ LLM(์—ฌ๊ธฐ์„œ๋Š” PaLM 2)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ ˆ์ด๋ธ”๋ง์„ ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋Œ€์‹ ํ•ด๋ณด์•˜๋”๋‹ˆ, ์ธ๊ฐ„์˜ ๋ ˆ์ด๋ธ”์„ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ๊ฑฐ์˜ ์—†์—ˆ๊ณ , ์‹ฌ์ง€์–ด ๋ฌดํ•ด์„ฑ์€ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง€๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚จ.


์•„์ง ์ดˆ๊ธฐ ๋‹จ๊ณ„์˜ ์—ฐ๊ตฌ์ด๊ธด ํ•˜์ง€๋งŒ, ์ตœ๊ณ  ์„ฑ๋Šฅ์˜ ๋ชจ๋ธ์ด ์กฐ๊ธˆ ๋” ์ข‹์•„์ง€๊ณ , ์ด์— ๋”ฐ๋ผ RLAIF๊ฐ€ RLHF๋ณด๋‹ค ํ™•์‹คํ•˜๊ฒŒ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ฒŒ ๋˜๋Š” ๋‚ ์ด ์˜ค๋ฉด, ์•ˆ์ „ํ•˜๊ณ  ๋†’์€ ์ˆ˜์ค€์˜ AI๋ฅผ ์‰ฝ๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋˜ํ•œ ํŒŒ์ธ ํŠœ๋‹ ์ˆ˜์ค€์—์„œ๋Š” ์ž๊ฐ€ ๋ฐœ์ „ํ•˜๋Š” AI๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ.


#ํŠน์ด์ ์ด์˜จ๋‹ค #์Šค์นด์ด๋„ท๋‹˜์‚ฌ๋ž‘ํ•ฉ๋‹ˆ๋‹ค

๋‹ค์Œ ๋‚ด์šฉ์ด ๊ถ๊ธˆํ•˜๋‹ค๋ฉด?

๋˜๋Š”

์ด๋ฏธ ํšŒ์›์ด์‹ ๊ฐ€์š”?

2023๋…„ 12์›” 5์ผ ์˜คํ›„ 5:23

๋Œ“๊ธ€ 0




    ๋น„์Šทํ•œ ๊ฒŒ์‹œ๋ฌผ

    ์ฃผ๊ฐ„ ์ธ๊ธฐ TOP 10

    1

    ํ™ฉ๊ฒฝ์ฐฌ(Boaz) P.E.C CEO

    React 19์™€ Next.js 15๊ฐ€ ์ƒˆ๋กญ๊ฒŒ ์ œ์•ˆํ•˜๋Š” ๋ฐฉํ–ฅ์€ ๊ฝค

    2

    ํ•œ๊ธฐ์šฉ UpZen ์ฐฝ์—…์ž ๋Œ€ํ‘œ & ์‚ฐํ˜ธ์„ธ ์ฃผ๋ฆฝ๋Œ€ ๊ต์ˆ˜

    ์Šค๋ชฐ ๋ฐ์ดํ„ฐ(Pandas)์—์„œ ๋น… ๋ฐ์ดํ„ฐ(Spark)๋กœ!

    3

    ๊ณจ๋นˆํ•ด์ปค Chief Maker

    ์ ์  ๋” ChatGPT์—๊ฒŒ ๋ฌผ์–ด๋ดค๋”๋‹ˆ ์ด๊ฑด ์ด๋ ‡๋‹ค๋”๋ผํ•˜๋Š” ์‚ฌ๋žŒ๋“ค์ด

    4

    ๋‹ฌ๋ ˆ Apollo GraphQL Software Engineer

    Apollo Connectors ์†Œ๊ฐœ์™€ ์‚ฌ์šฉ๋ฒ•

    5

    ์ „๋ฏผ์šฐ ๋ฐฑ์—”๋“œ๊ฐœ๋ฐœ์ž

    ๊ฑด๊ฐ•์„ ํ•ญ์ƒ ๋Œ๋ด์ฃผ์„ธ์š”.

    6

    Annette MJ Kim ์‚ฌ๋žŒ๊ณผ ์กฐ์ง์˜ ๋™๋ฐ˜ ์„ฑ์žฅ์„ ์œ„ํ•ด ์ผํ•ด์š”:D

    ๋ฐ• ๊ณผ์žฅ์€ ํ‰์†Œ ๋ง์„ ์กฐ๋ฆฌ์žˆ๊ฒŒ ์ž˜ํ•œ๋‹ค๋Š” ๋ง์„ ๋งŽ์ด ๋“ฃ์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ

    7

    ์ด์›ํ˜• ๋ผ์ธํ”Œ๋Ÿฌ์Šค ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด

    ๊ณ ์šฉ๋…ธ๋™๋ถ€๊ฐ€ ์ฃผ๊ด€ํ•˜๋Š” ์ฒญ๋…„๋ฏธ๋ž˜ํ”Œ๋Ÿฌ์Šค ์‚ฌ์—…์˜ ์ฐธ์—ฌ์ž๋ฅผ ๋ชจ์ง‘ํ•œ๋‹ค๊ณ  ํ•ฉ

    8

    ๋ ˆ๋“œ๋ฒ„์Šค๋ฐฑ๋งจ ๋ฆฌ์„œ์ฒ˜ ์•ค ๋ผ์ดํ„ฐ

    โŸช๊ธฐ๋ถ„์„ ๊ด€๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์˜๋ฌด๋ฅผ ๋‹คํ•˜๋Š” ๊ฒƒโŸซ

    8

    ์žฅํ™์„ ์ŠคํŽ˜์ด์Šค์˜ค๋””ํ‹ฐ ๋ถ€๋Œ€ํ‘œ/CPO

    < ์„ฑ๊ณตํ•˜๋Š” ์‚ฌ๋žŒ๋“ค์˜ ๋น„๋ฐ€: ๋งค์ผ ๊ฐ™์€ ์‹œ๊ฐ„, ๊ฐ™์€ ์žฅ์†Œ >

    8

    ๋ ˆ๋“œ๋ฒ„์Šค๋ฐฑ๋งจ ๋ฆฌ์„œ์ฒ˜ ์•ค ๋ผ์ดํ„ฐ

    ใ€Š์–ด๋ฅธ์€ ์Šค์Šค๋กœ๋ฅผ ์†Œํ™€ํžˆ ํ•˜์ง€ ์•Š๋Š”๋‹คใ€‹