MoE ๋ชจ๋ธ์ Mixture of Experts ๋ผ๋ ๊ธฐ๋ฒ์ผ๋ก, GPT-4์ ๊ทผ๊ฐ์ด ๋๋ ๊ธฐ์ ์ธ๋ฐ์. ํน์ ํ์คํฌ์ ๋ํด ์ฑ๋ฅ์ ๋์ธ ๋ค์์ ๋ชจ๋ธ์ ์ฌ์ฉํด, ์ฌ์ฉ์์ ์์ฒญ์ ์ต์ ํ๋ โ์ผ๋ถโ ๋คํธ์๋ง์ ์ฌ์ฉํด ์ปดํจํ ๋ฆฌ์์ค๋ ์ ๊ฒ ์ฌ์ฉํ๋ฉด์ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
Mixtral ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- 8๊ฐ์ 7B Mistral ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ, ์ ์ฒด ๋ชจ๋ธ ํฌ๊ธฐ๋ ์ฝ 56B ์ ๋ (80G GPU x 2๊ฐ ํ์)
- ์ถ๋ก ์์ 2๊ฐ์ ๋คํธ์์ ์ฌ์ฉํ์ฌ, ์ปดํจํ ์ฝ์คํธ๋ ์ฝ 12B ์ ๋ ์์ค
- 32K ์๋์ฐ ํฌ๊ธฐ๋ฅผ ์ ๊ณต
์์ง ๊ณต๊ฐํ์ง ์ผ๋ง๋์ง ์์ ์ฑ๋ฅ ์งํ๊ฐ ๊ณต์์ ์ผ๋ก ๋์จ ๊ฒ์ ์๋๋ฐ์. ๋ช๋ช๋ถ๋ค์ ํ ์คํธ์ ์ํ๋ฉด ์ฃผ์ ํ ์คํธ์ ๋ํด ๋ค์๊ณผ ๊ฐ์ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๊ณ ํฉ๋๋ค.
- MMLU: 71.7
- HellaSwag: 86.6
- GSM8K: 57.1
๋ค์์ ์ฃผ์ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ ์งํ์ธ๋ฐ์. (๐ ๋ผ๊ณ ํ์ํ ๋ชจ๋ธ์ด ๋์ผ ์ ์)
๐ MMLU
- GPT-4: 86.5
๐ Gemini Pro: 71.8
- GPT-3.5: 70
- LLaMA 2 70B: 68.9
๐ HellaSwag
- GPT-4: 95.3
๐ PaLM 2-M: 86.7
- GPT-3.5: 85.5
- LLaMA 2 70B: 85.3
๐ GSM8K
- GPT-4: 92
๐ GPT-3.5: 57.1
- LLaMA 2 70B: 56.8
- PaLM 540B: 56.5
ํ ์คํธ ๋ฐฉ๋ฒ์ ๋ฐ๋ผ ์ฝ๊ฐ์ฉ ๋ค๋ฅด๊ธฐ๋ ํ๊ณ ์์ง ๊ณต์ ๋ ฅ์๋ ์งํ๋ ์๋๋๋ค๋ง, ๋จ์ํ ์ด ์งํ๋ง ๋ดค์ ๋ ์ ๋ง ๋๋ผ์ด ๋ฐ์ ์ด ์๋ ์ ์์ต๋๋ค.
์์ง GPT-4์ ์์ค์๋ ํ์ฐธ ๋ชป ๋ฏธ์น๊ธดํ์ง๋ง, GPT-4 ๋ชจ๋ธ์ด 100B+ ๋ชจ๋ธ์ 16๊ฐ ์ฌ์ฉํ๋ ๊ฒ์ผ๋ก ์ถ์ ํ๊ณ ์์ผ๋, ์คํ์์ค ๋ชจ๋ธ๋ก GPT-4 ์์ค์ ๋ชจ๋ธ์ด ๋ง๋ค์ด์ง๋ ๊ฒ๋ ์์ฃผ ๋ฉ์ง๋ ์์ ๊ฒ์ด ์๋๊ฐ ์ถ์ต๋๋ค.
๋ค๋ง, ์ ๊ฐ ๊ฐ๋จํ ํ ์คํธ ํด ๋ณธ ๊ฒฐ๊ณผ ํ๊ตญ์ด๋ ์์ง ์์ํฉ๋๋ค. ๐ญ ๊ตญ๋ด์๋ LLM์ ์ฐ๊ตฌํ๋ ๋ง์ ํ์ฌ์ ๋จ์ฒด๋ค์ด ์์ผ๋, ํ๊ตญ์ด๊ฐ ์ ๋๋ GPT-4 ์์ค์ ๋ชจ๋ธ๋ค๋ ๋นจ๋ฆฌ ๋์ค๊ธธ ๊ธฐ๋ํด๋ด ๋๋ค.
๋ค์ ๋ด์ฉ์ด ๊ถ๊ธํ๋ค๋ฉด?
์ด๋ฏธ ํ์์ด์ ๊ฐ์?
2023๋ 12์ 9์ผ ์คํ 12:55