Community

๐Ÿ“Š MMLU ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ–ฅ์ƒ์‹œํ‚จ MMLU-Pro ๋ฒค์น˜๋งˆํฌ

MMLU(Massive Multitask Language Understanding)๋Š” ์ˆ˜ํ•™ยท๋ฌผ๋ฆฌํ•™ยท์—ญ์‚ฌยท๋ฒ•๋ฅ ยท์˜ํ•™ยท์œค๋ฆฌ ๋“ฑ 57๊ฐœ์˜ ์ฃผ์ œ๋ฅผ ๋ณตํ•ฉ์ ์œผ๋กœ ํ™œ์šฉํ•ด AI์˜ ์ง€์‹๊ณผ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š”, ๋ณตํ•ฉ์ ์ธ ์ง€์‹์— ๋Œ€ํ•œ ์–ธ์–ด ์ดํ•ด ํ…Œ์ŠคํŠธ์ž…๋‹ˆ๋‹ค. ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€ ์ง€ํ‘œ ์ค‘ ๊ฐ€์žฅ ์œ ์˜๋ฏธํ•œ ์ง€ํ‘œ๋กœ ์ธ์ •๋ฐ›๊ณ  ์žˆ๋Š”๋ฐ์š”. ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋†’์•„์ง€๋ฉด์„œ ๋” ๋†’์€ ์ˆ˜์ค€์˜ ํ…Œ์ŠคํŠธ๊ฐ€ ํ•„์š”ํ•ด์ง์— ๋”ฐ๋ผ ์ด๋ฅผ ์—…๊ทธ๋ ˆ์ด๋“œํ•œ MMLU-Pro ๋ฒค์น˜๋งˆํฌ ํ…Œ์ŠคํŠธ๊ฐ€ ์ถœ์‹œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. 12K ์งˆ๋ฌธ์„ ๊ฐ€์ง„ ํ…Œ์ŠคํŠธ์…‹์œผ๋กœ, ์›๋ž˜์˜ MMLU๊ฐ€ ๊ฐ€์ง„ 4๊ฐ€์ง€ ์˜ต์…˜ ๋Œ€์‹  10๊ฐ€์ง€ ์˜ต์…˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌด์ž‘์œ„๋กœ ์ถ”์ธกํ•ด ๋งž์ถœ ํ™•๋ฅ ์„ ๋‚ฎ์ท„์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ๊ฑธ์ณ ๋” ๋งŽ์€ ๋Œ€ํ•™ ์ˆ˜์ค€์˜ ๋ฌธ์ œ๋ฅผ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ๋ณต์žก์„ฑ ์ˆ˜์ค€์„ ํฌ๊ฒŒ ์ฆ๊ฐ€์‹œ์ผœ ๊ฒฌ๊ณ ํ•˜๋ฉฐ ๋‹ค๋ฅธ ํ”„๋กฌํ”„ํŠธ์— ๋œ ๋ฏผ๊ฐํ•ด์กŒ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ํ…Œ์ŠคํŠธ์…‹ ์ถœ์‹œ์™€ ํ•จ๊ป˜ ๋‹ค์–‘ํ•œ ์–ธ์–ด๋ชจ๋ธ์— ๋Œ€ํ•œ ํ…Œ์ŠคํŠธ๋„ ์ง„ํ–‰ํ•˜์—ฌ ์ ์ˆ˜๋ฅผ ๊ณต๊ฐœํ–ˆ๋Š”๋ฐ์š”. GPT-4o(71%)๊ฐ€ GPT-4 Turbo(62%)๋ณด๋‹ค ์•ฝ 9%p ๋” ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ฐ›์•˜๊ณ , 2์œ„์ธ Claude 3 Opus(64%)๋ณด๋‹ค๋„ ์•ฝ 7%p ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. GPT-4o์˜ ์••๋„์ ์ธ ์„ฑ๋Šฅ์— ๋‹ค์‹œ ํ•œ ๋ฒˆ ๋†€๋ผ๊ฒŒ ๋˜๋„ค์š”. ๐Ÿ˜ณ (MMLU-Pro๋Š” ์ตœ์‹  ๋ฒค์น˜๋งˆํฌ์—ฌ์„œ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋  ์ผ์ด ์—†์œผ๋‹ˆ ์„ฑ๋Šฅ ์น˜ํŒ…์˜ ๊ฐ€๋Šฅ์„ฑ์ด ๊ฑฐ์˜ ์—†์„๊ฒ๋‹ˆ๋‹ค)

์•Œ๋ฆผ

์•Œ๋ฆผ์ด ์—†์Šต๋‹ˆ๋‹ค