๐ MMLU ๋ฒค์น๋งํฌ๋ฅผ ํฅ์์ํจ MMLU-Pro ๋ฒค์น๋งํฌ
MMLU(Massive Multitask Language Understanding)๋ ์ํยท๋ฌผ๋ฆฌํยท์ญ์ฌยท๋ฒ๋ฅ ยท์ํยท์ค๋ฆฌ ๋ฑ 57๊ฐ์ ์ฃผ์ ๋ฅผ ๋ณตํฉ์ ์ผ๋ก ํ์ฉํด AI์ ์ง์๊ณผ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋, ๋ณตํฉ์ ์ธ ์ง์์ ๋ํ ์ธ์ด ์ดํด ํ ์คํธ์ ๋๋ค. ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฑ๋ฅ ํ๊ฐ ์งํ ์ค ๊ฐ์ฅ ์ ์๋ฏธํ ์งํ๋ก ์ธ์ ๋ฐ๊ณ ์๋๋ฐ์. ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋์์ง๋ฉด์ ๋ ๋์ ์์ค์ ํ ์คํธ๊ฐ ํ์ํด์ง์ ๋ฐ๋ผ ์ด๋ฅผ ์ ๊ทธ๋ ์ด๋ํ MMLU-Pro ๋ฒค์น๋งํฌ ํ ์คํธ๊ฐ ์ถ์๋์์ต๋๋ค. 12K ์ง๋ฌธ์ ๊ฐ์ง ํ ์คํธ์ ์ผ๋ก, ์๋์ MMLU๊ฐ ๊ฐ์ง 4๊ฐ์ง ์ต์ ๋์ 10๊ฐ์ง ์ต์ ์ ์ฌ์ฉํ์ฌ ๋ฌด์์๋ก ์ถ์ธกํด ๋ง์ถ ํ๋ฅ ์ ๋ฎ์ท์ต๋๋ค. ๋ํ ๋ค์ํ ๋ถ์ผ์ ๊ฑธ์ณ ๋ ๋ง์ ๋ํ ์์ค์ ๋ฌธ์ ๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ๋ณต์ก์ฑ ์์ค์ ํฌ๊ฒ ์ฆ๊ฐ์์ผ ๊ฒฌ๊ณ ํ๋ฉฐ ๋ค๋ฅธ ํ๋กฌํํธ์ ๋ ๋ฏผ๊ฐํด์ก๋ค๊ณ ํฉ๋๋ค. ํ ์คํธ์ ์ถ์์ ํจ๊ป ๋ค์ํ ์ธ์ด๋ชจ๋ธ์ ๋ํ ํ ์คํธ๋ ์งํํ์ฌ ์ ์๋ฅผ ๊ณต๊ฐํ๋๋ฐ์. GPT-4o(71%)๊ฐ GPT-4 Turbo(62%)๋ณด๋ค ์ฝ 9%p ๋ ๋์ ์ ์๋ฅผ ๋ฐ์๊ณ , 2์์ธ Claude 3 Opus(64%)๋ณด๋ค๋ ์ฝ 7%p ๋์ ์ ์๋ฅผ ๋ฐ์์ต๋๋ค. GPT-4o์ ์๋์ ์ธ ์ฑ๋ฅ์ ๋ค์ ํ ๋ฒ ๋๋ผ๊ฒ ๋๋ค์. ๐ณ (MMLU-Pro๋ ์ต์ ๋ฒค์น๋งํฌ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ํฌํจ๋ ์ผ์ด ์์ผ๋ ์ฑ๋ฅ ์นํ ์ ๊ฐ๋ฅ์ฑ์ด ๊ฑฐ์ ์์๊ฒ๋๋ค)