๐๏ธ ์คํ์์ค LLM๊ณ์ ํ์ฑ์ฒ๋ผ ๋ํ๋ 7B ๋ชจ๋ธ๋ก ๋๋ค์์ 30B+ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค Mistral AI ์์ Mixtral ์ด๋ผ๋ MoE ๋ชจ๋ธ์ ๊ณต๊ฐํ์์ต๋๋ค. MoE ๋ชจ๋ธ์
๐๏ธ ์คํ์์ค LLM๊ณ์ ํ์ฑ์ฒ๋ผ ๋ํ๋ 7B ๋ชจ๋ธ๋ก ๋๋ค์์ 30B+ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค Mistral AI ์์ Mixtral ์ด๋ผ๋ MoE ๋ชจ๋ธ์ ๊ณต๊ฐํ์์ต๋๋ค. MoE ๋ชจ๋ธ์ Mixture of Experts ๋ผ๋ ๊ธฐ๋ฒ์ผ๋ก, GPT-4์ ๊ทผ๊ฐ์ด ๋๋ ๊ธฐ์ ์ธ๋ฐ์. ํน์ ํ์คํฌ์ ๋ํด ์ฑ๋ฅ์ ๋์ธ ๋ค์์ ๋ชจ๋ธ์ ์ฌ์ฉํด, ์ฌ์ฉ์์ ์์ฒญ์ ์ต์ ํ๋ โ์ผ๋ถโ ๋คํธ์๋ง์ ์ฌ์ฉํด ์ปดํจํ ๋ฆฌ์์ค๋ ์ ๊ฒ ์ฌ์ฉํ๋ฉด์ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. Mixtral ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. - 8๊ฐ์ 7B Mistral ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ, ์ ์ฒด ๋ชจ๋ธ ํฌ๊ธฐ๋ ์ฝ 56B ์ ๋ (80G GPU x 2๊ฐ ํ์) - ์ถ๋ก ์์ 2๊ฐ์ ๋คํธ์์ ์ฌ์ฉํ์ฌ, ์ปดํจํ ์ฝ์คํธ๋ ์ฝ 12B ์ ๋ ์์ค - 32K ์๋์ฐ ํฌ๊ธฐ๋ฅผ ์ ๊ณต ์์ง ๊ณต๊ฐํ์ง ์ผ๋ง๋์ง ์์ ์ฑ๋ฅ ์งํ๊ฐ ๊ณต์์ ์ผ๋ก ๋์จ ๊ฒ์ ์๋๋ฐ์. ๋ช๋ช๋ถ๋ค์ ํ ์คํธ์ ์ํ๋ฉด ์ฃผ์ ํ ์คํธ์ ๋ํด ๋ค์๊ณผ ๊ฐ์ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๊ณ ํฉ๋๋ค. - MMLU: 71.7 - HellaSwag: 86.6 - GSM8K: 57.1 ๋ค์์ ์ฃผ์ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ ์งํ์ธ๋ฐ์. (๐ ๋ผ๊ณ ํ์ํ ๋ชจ๋ธ์ด ๋์ผ ์ ์) ๐ MMLU - GPT-4: 86.5 ๐ Gemini Pro: 71.8 - GPT-3.5: 70 - LLaMA 2 70B: 68.9 ๐ HellaSwag - GPT-4: 95.3 ๐ PaLM 2-M: 86.7 - GPT-3.5: 85.5 - LLaMA 2 70B: 85.3 ๐ GSM8K - GPT-4: 92 ๐ GPT-3.5: 57.1 - LLaMA 2 70B: 56.8 - PaLM 540B: 56.5 ํ ์คํธ ๋ฐฉ๋ฒ์ ๋ฐ๋ผ ์ฝ๊ฐ์ฉ ๋ค๋ฅด๊ธฐ๋ ํ๊ณ ์์ง ๊ณต์ ๋ ฅ์๋ ์งํ๋ ์๋๋๋ค๋ง, ๋จ์ํ ์ด ์งํ๋ง ๋ดค์ ๋ ์ ๋ง ๋๋ผ์ด ๋ฐ์ ์ด ์๋ ์ ์์ต๋๋ค. ์์ง GPT-4์ ์์ค์๋ ํ์ฐธ ๋ชป ๋ฏธ์น๊ธดํ์ง๋ง, GPT-4 ๋ชจ๋ธ์ด 100B+ ๋ชจ๋ธ์ 16๊ฐ ์ฌ์ฉํ๋ ๊ฒ์ผ๋ก ์ถ์ ํ๊ณ ์์ผ๋, ์คํ์์ค ๋ชจ๋ธ๋ก GPT-4 ์์ค์ ๋ชจ๋ธ์ด ๋ง๋ค์ด์ง๋ ๊ฒ๋ ์์ฃผ ๋ฉ์ง๋ ์์ ๊ฒ์ด ์๋๊ฐ ์ถ์ต๋๋ค. ๋ค๋ง, ์ ๊ฐ ๊ฐ๋จํ ํ ์คํธ ํด ๋ณธ ๊ฒฐ๊ณผ ํ๊ตญ์ด๋ ์์ง ์์ํฉ๋๋ค. ๐ญ ๊ตญ๋ด์๋ LLM์ ์ฐ๊ตฌํ๋ ๋ง์ ํ์ฌ์ ๋จ์ฒด๋ค์ด ์์ผ๋, ํ๊ตญ์ด๊ฐ ์ ๋๋ GPT-4 ์์ค์ ๋ชจ๋ธ๋ค๋ ๋นจ๋ฆฌ ๋์ค๊ธธ ๊ธฐ๋ํด๋ด ๋๋ค.