Community

๐Ÿ—ž๏ธ ์˜คํ”ˆ์†Œ์Šค LLM๊ณ„์— ํ˜œ์„ฑ์ฒ˜๋Ÿผ ๋‚˜ํƒ€๋‚˜ 7B ๋ชจ๋ธ๋กœ ๋Œ€๋‹ค์ˆ˜์˜ 30B+ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€ Mistral AI ์—์„œ Mixtral ์ด๋ผ๋Š” MoE ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•˜์˜€์Šต๋‹ˆ๋‹ค. MoE ๋ชจ๋ธ์€

๐Ÿ—ž๏ธ ์˜คํ”ˆ์†Œ์Šค LLM๊ณ„์— ํ˜œ์„ฑ์ฒ˜๋Ÿผ ๋‚˜ํƒ€๋‚˜ 7B ๋ชจ๋ธ๋กœ ๋Œ€๋‹ค์ˆ˜์˜ 30B+ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€ Mistral AI ์—์„œ Mixtral ์ด๋ผ๋Š” MoE ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•˜์˜€์Šต๋‹ˆ๋‹ค. MoE ๋ชจ๋ธ์€ Mixture of Experts ๋ผ๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, GPT-4์˜ ๊ทผ๊ฐ„์ด ๋˜๋Š” ๊ธฐ์ˆ ์ธ๋ฐ์š”. ํŠน์ • ํƒœ์Šคํฌ์— ๋Œ€ํ•ด ์„ฑ๋Šฅ์„ ๋†’์ธ ๋‹ค์ˆ˜์˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด, ์‚ฌ์šฉ์ž์˜ ์š”์ฒญ์— ์ตœ์ ํ™”๋œ โ€œ์ผ๋ถ€โ€ ๋„คํŠธ์›๋งŒ์„ ์‚ฌ์šฉํ•ด ์ปดํ“จํŒ… ๋ฆฌ์†Œ์Šค๋Š” ์ ๊ฒŒ ์‚ฌ์šฉํ•˜๋ฉด์„œ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. Mixtral ์˜ ํŠน์ง•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. - 8๊ฐœ์˜ 7B Mistral ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ, ์ „์ฒด ๋ชจ๋ธ ํฌ๊ธฐ๋Š” ์•ฝ 56B ์ •๋„ (80G GPU x 2๊ฐœ ํ•„์š”) - ์ถ”๋ก ์‹œ์—” 2๊ฐœ์˜ ๋„คํŠธ์›์„ ์‚ฌ์šฉํ•˜์—ฌ, ์ปดํ“จํŒ… ์ฝ”์ŠคํŠธ๋Š” ์•ฝ 12B ์ •๋„ ์ˆ˜์ค€ - 32K ์œˆ๋„์šฐ ํฌ๊ธฐ๋ฅผ ์ œ๊ณต ์•„์ง ๊ณต๊ฐœํ•œ์ง€ ์–ผ๋งˆ๋˜์ง€ ์•Š์•„ ์„ฑ๋Šฅ ์ง€ํ‘œ๊ฐ€ ๊ณต์‹์ ์œผ๋กœ ๋‚˜์˜จ ๊ฒƒ์€ ์—†๋Š”๋ฐ์š”. ๋ช‡๋ช‡๋ถ„๋“ค์˜ ํ…Œ์ŠคํŠธ์— ์˜ํ•˜๋ฉด ์ฃผ์š” ํ…Œ์ŠคํŠธ์— ๋Œ€ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. - MMLU: 71.7 - HellaSwag: 86.6 - GSM8K: 57.1 ๋‹ค์Œ์€ ์ฃผ์š” ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ ์ง€ํ‘œ์ธ๋ฐ์š”. (๐Ÿ‘‰ ๋ผ๊ณ  ํ‘œ์‹œํ•œ ๋ชจ๋ธ์ด ๋™์ผ ์ ์ˆ˜) ๐Ÿ“Š MMLU - GPT-4: 86.5 ๐Ÿ‘‰ Gemini Pro: 71.8 - GPT-3.5: 70 - LLaMA 2 70B: 68.9 ๐Ÿ“Š HellaSwag - GPT-4: 95.3 ๐Ÿ‘‰ PaLM 2-M: 86.7 - GPT-3.5: 85.5 - LLaMA 2 70B: 85.3 ๐Ÿ“Š GSM8K - GPT-4: 92 ๐Ÿ‘‰ GPT-3.5: 57.1 - LLaMA 2 70B: 56.8 - PaLM 540B: 56.5 ํ…Œ์ŠคํŠธ ๋ฐฉ๋ฒ•์— ๋”ฐ๋ผ ์•ฝ๊ฐ„์”ฉ ๋‹ค๋ฅด๊ธฐ๋„ ํ•˜๊ณ  ์•„์ง ๊ณต์‹ ๋ ฅ์žˆ๋Š” ์ง€ํ‘œ๋Š” ์•„๋‹™๋‹ˆ๋‹ค๋งŒ, ๋‹จ์ˆœํžˆ ์ด ์ง€ํ‘œ๋งŒ ๋ดค์„ ๋• ์ •๋ง ๋†€๋ผ์šด ๋ฐœ์ „์ด ์•„๋‹ ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ์•„์ง GPT-4์˜ ์ˆ˜์ค€์—๋Š” ํ•œ์ฐธ ๋ชป ๋ฏธ์น˜๊ธดํ•˜์ง€๋งŒ, GPT-4 ๋ชจ๋ธ์ด 100B+ ๋ชจ๋ธ์„ 16๊ฐœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ถ”์ •ํ•˜๊ณ  ์žˆ์œผ๋‹ˆ, ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋กœ GPT-4 ์ˆ˜์ค€์˜ ๋ชจ๋ธ์ด ๋งŒ๋“ค์–ด์ง€๋Š” ๊ฒƒ๋„ ์•„์ฃผ ๋ฉ€์ง€๋Š” ์•Š์€ ๊ฒƒ์ด ์•„๋‹Œ๊ฐ€ ์‹ถ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ์ œ๊ฐ€ ๊ฐ„๋‹จํžˆ ํ…Œ์ŠคํŠธ ํ•ด ๋ณธ ๊ฒฐ๊ณผ ํ•œ๊ตญ์–ด๋Š” ์•„์ง ์š”์›ํ•ฉ๋‹ˆ๋‹ค. ๐Ÿ˜ญ ๊ตญ๋‚ด์—๋„ LLM์„ ์—ฐ๊ตฌํ•˜๋Š” ๋งŽ์€ ํšŒ์‚ฌ์™€ ๋‹จ์ฒด๋“ค์ด ์žˆ์œผ๋‹ˆ, ํ•œ๊ตญ์–ด๊ฐ€ ์ž˜ ๋˜๋Š” GPT-4 ์ˆ˜์ค€์˜ ๋ชจ๋ธ๋“ค๋„ ๋นจ๋ฆฌ ๋‚˜์˜ค๊ธธ ๊ธฐ๋Œ€ํ•ด๋ด…๋‹ˆ๋‹ค.

์•Œ๋ฆผ

์•Œ๋ฆผ์ด ์—†์Šต๋‹ˆ๋‹ค