๐Ÿ“ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLHF)์„, AI ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLAIF)์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ๋” ๋น ๋ฅด๊ณ  ์ €๋ ดํ•˜๊ฒŒ AI๋ฅผ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๊ณ . (Google Research)


RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback - https://arxiv.org/abs/2309.00267


RLHF๋Š” LLM์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๋†’์—ฌ์ฃผ๊ณ  ํŠนํžˆ ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋„์— ๋งž์ถ˜(alignment) ๋‹ต๋ณ€์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“œ๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ๊ธฐ๋ฒ•์œผ๋กœ ์ž๋ฆฌ ์žก์•˜์Œ. ChatGPT์˜ ํƒ„์ƒ์€ ์ด ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์™„์„ฑ๋˜์—ˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„ ์ •๋„.


ํ•˜์ง€๋งŒ RLHF๋กœ ํ•™์Šต์„ ์‹œํ‚ค๋ ค๋ฉด ์ธ๊ฐ„ ๋ ˆ์ด๋ธ”๋Ÿฌ๋ฅผ ํ†ตํ•ด ์ง€์†์ ์œผ๋กœ ๊ณ ํ’ˆ์งˆ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด์•ผ ํ•˜๋Š”๋ฐ, ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ์ผ์€ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์ด ๊ต‰์žฅํžˆ ๋งŽ์ด ๋“œ๋Š” ์ผ์ž„.


๊ทธ๋Ÿฐ๋ฐ ์ธ๊ฐ„ ๋Œ€์‹  ๊ฐ•๋ ฅํ•œ ๊ธฐ์„ฑ LLM(์—ฌ๊ธฐ์„œ๋Š” PaLM 2)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ ˆ์ด๋ธ”๋ง์„ ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋Œ€์‹ ํ•ด๋ณด์•˜๋”๋‹ˆ, ์ธ๊ฐ„์˜ ๋ ˆ์ด๋ธ”์„ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ๊ฑฐ์˜ ์—†์—ˆ๊ณ , ์‹ฌ์ง€์–ด ๋ฌดํ•ด์„ฑ์€ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง€๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚จ.


์•„์ง ์ดˆ๊ธฐ ๋‹จ๊ณ„์˜ ์—ฐ๊ตฌ์ด๊ธด ํ•˜์ง€๋งŒ, ์ตœ๊ณ  ์„ฑ๋Šฅ์˜ ๋ชจ๋ธ์ด ์กฐ๊ธˆ ๋” ์ข‹์•„์ง€๊ณ , ์ด์— ๋”ฐ๋ผ RLAIF๊ฐ€ RLHF๋ณด๋‹ค ํ™•์‹คํ•˜๊ฒŒ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ฒŒ ๋˜๋Š” ๋‚ ์ด ์˜ค๋ฉด, ์•ˆ์ „ํ•˜๊ณ  ๋†’์€ ์ˆ˜์ค€์˜ AI๋ฅผ ์‰ฝ๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋˜ํ•œ ํŒŒ์ธ ํŠœ๋‹ ์ˆ˜์ค€์—์„œ๋Š” ์ž๊ฐ€ ๋ฐœ์ „ํ•˜๋Š” AI๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ.


#ํŠน์ด์ ์ด์˜จ๋‹ค #์Šค์นด์ด๋„ท๋‹˜์‚ฌ๋ž‘ํ•ฉ๋‹ˆ๋‹ค

๋‹ค์Œ ๋‚ด์šฉ์ด ๊ถ๊ธˆํ•˜๋‹ค๋ฉด?

๋˜๋Š”

์ด๋ฏธ ํšŒ์›์ด์‹ ๊ฐ€์š”?

2023๋…„ 12์›” 5์ผ ์˜คํ›„ 5:23

๋Œ“๊ธ€ 0

    ํ•จ๊ป˜ ์ฝ์€ ๊ฒŒ์‹œ๋ฌผ

    ๋ฐ์ดํ„ฐ ๋ถ„์„๊ฐ€ 600๋ช…์˜ ์ด์ง ๊ฒฐ์‹ฌ ์‚ฌ์œ ๋Š” ๋ฌด์—‡์ผ๊นŒ์š”?

    ๋ฐ

    ... ๋” ๋ณด๊ธฐ

    - YouTube

    www.youtube.com

     - YouTube

    ๊ทธ๋Ÿฌ๊ณ ๋ณด๋‹ˆ, ์˜ˆ์ „์—๋Š” ์ž…์‚ฌ ์ง€์›์„œ์— ํฌ๋ง์—ฐ๋ด‰๋ž€์ด ์žˆ์—ˆ๋Š”๋ฐ ์–ธ์  ๊ฐ€๋ถ€ํ„ฐ ์‚ฌ๋ผ์กŒ๋„ค์š”. ์™œ ์—†์–ด์ง„๊ฑธ๊นŒ์š”? ์ œ์ผ ์ค‘์š”ํ•œ๊ฑด๋ฐโ€ฆ


    ์ฑ„์šฉ๊ณผ์ •์€ ์ง€์›์ž๋‚˜ ํšŒ์‚ฌ์ž…์žฅ์—์„œ๋‚˜ ์—„์ฒญ๋‚œ ์‹œ๊ฐ„๊ณผ ๋…ธ๋ ฅ์ด ๋“œ๋Š”๊ฑฐ๋ผ, ํ•ฉ๊ฒฉํ–ˆ๋Š”๋ฐ ์—ฐ๋ด‰ ์ˆ˜์ค€์ด ์•ˆ๋งž์•„์„œ ์ทจ์†Œ๋˜๋ฉด ๊ทธ ์•ž์˜ ๋…ธ๋ ฅ์ด ์–ผ๋งˆ๋‚˜ ํ—ˆ๋ฌดํ•œ๋””โ€ฆ


    ๋น„์Šทํ•œ ๊ฒŒ์‹œ๋ฌผ

    HoJoong Kim Senior IT guy

    [ํฌ๋ธŒ์Šค] 2025๋…„ ๋ฐ˜๋“œ์‹œ ์ค€๋น„ํ•ด์•ผ ํ•  10๋Œ€ AI ํŠธ๋ Œ๋“œ

    ์ด๋ช…์ง„ ํ•œ๊ตญ๋ ˆ๋“œํ–‡ ์†”๋ฃจ์…˜ ์•„ํ‚คํ…ํŠธ

    ๊ด‘๋ฒ”์œ„ํ•œ AI์˜ ์ŠคํŽ™ํŠธ๋Ÿผ ๊ฐœ์š”

    HoJoong Kim Senior IT guy

    [ํฌ๋ธŒ์Šค] 2025๋…„์— ๋น„์ฆˆ๋‹ˆ์Šค๋ฅผ ๋ณ€ํ™”์‹œํ‚ฌ 10๋Œ€ ๋ฐ์ดํ„ฐ ํŠธ๋ Œ๋“œ

    ์žฅํ˜œ๋ฆผ (๋ฉ”์ด) ํ”„๋ฆฌ๋žœ์„œ ํ…Œํฌ ๋น„์ฆˆ ๋ผ์ดํ„ฐ

    ๊ตฌ๊ธ€ ๋”ฅ๋งˆ์ธ๋“œ๋Š” AI ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ ์ธก๋ฉด์—์„œ ์ž์‚ฌ์˜ ์ดˆ๊ธฐ ๋ชฉํ‘œ์— ๊ฐ€์žฅ ๋ถ€ํ•ฉํ•˜๋Š” ํ–‰๋ณด๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ OpenAI์™€ ๋ช…ํ™•ํžˆ ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์„ ํ–ฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฅ๋งˆ์ธ๋“œ์˜ AlphaProof๊ฐ€ ๊ตญ

    ๊ฐ•์žฌ์ƒ ์Šคํƒ€ํŠธ์—… ์œก์„ฑ, Corprate Venturing, ์‚ฌ์—…, ์ปค๋ฆฌ์–ด, ์ž‘๊ฐ€

    'S๊ธ‰ ๋ฐ์ดํ„ฐ ๋ชจ์•„์™€๋ผ'โ€ฆ๋น…ํ…Œํฌ๋Š” ๋„๋‘‘์งˆ๊นŒ์ง€ ํ–ˆ๋‹ค

    ๊ณจ๋นˆํ•ด์ปค Chief Maker

    ๐Ÿ“ ์ฐจ์ฃผ ๋ชฉ์š”์ผ์— OpenAI์˜ ๊ฒ€์ƒ‰ ์„œ๋น„์Šค๊ฐ€ ๋ฐœํ‘œ ๋  ๊ฒƒ์ด๋ผ๋Š” ๋ฃจ๋จธ

    ์ฃผ๊ฐ„ ์ธ๊ธฐ TOP 10

    1

    ๊ณจ๋นˆํ•ด์ปค Chief Maker

    ์˜ค๋Š˜์˜ ํƒ๋ผ๋Š” โ€œChatGPT ์“ฐ์…จ๋˜๋ฐ ๊ทธ๋Ÿฌ๊ณ ๋„ ๊ฐœ๋ฐœ์ž์ž…๋‹ˆ๊นŒ?โ€

    2

    ๊น€์˜์ค‘ ํ”„๋ก ํŠธ์—”๋“œ ๊ฐœ๋ฐœ์ž

    Claude Code ์‹ค์ „ ๊ฐ€์ด๋“œ: AI ๋„ค์ดํ‹ฐ๋ธŒ ๊ฐœ๋ฐœ์ž๋กœ ๊ฐ€๋Š”

    3

    Arawn Park Senior Engineer & Engineering Lead

    ๋„ทํ”Œ๋ฆญ์Šค๋Š” ์™œ WebFlux๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์„๊นŒ?

    3

    psmon ๋ธ”๋ฃธ์—์ด์•„์ด ์„œ๋ฒ„ ์—”์ง€๋‹ˆ์–ด

    ์นดํ”„์นด๋ฅผ ์šฐ์•„ํ•˜๊ฒŒ ์‚ฌ์šฉํ•˜๊ธฐ -์ฝ”ํ‹€๋ฆฐํŽธ

    5

    ๋‹ฌ๋ ˆ Apollo GraphQL Software Engineer

    ์•Œ์•„ ์•Œ์•„ ์•Œ์•„! ๐Ÿคฃ