LLaMA3 모델이 정량적으로는 한국어 능력이 어느 정도인지 궁금해서 다양한 벤치마크에서 뽑아보았습니다. 공개되었는 KMMLU 평가셋에서는 다음과 같은 점수가 나왔습니다. CoT까지 쓴것은 아니고 Prompt를 몇가지 테스트해보고 맞춰봤습니다.


llama3-8b-instruct: 38.6

llama3-70b-instruct: 54.5


참고로 chatgpt의 모델들 점수들은...

gpt-3.5-turbo: 42.47

gpt-4: 59.95


물론 KMMLU 벤치마크에서는 한국어를 생성하는 것은 아니고, 한국어 문제에 대해 A/B/C/D 중에 답을 하는 사지선다형 문제이기 때문에 모든 한국어 능력을 대변할 수는 없겠지만! 놀랍긴하네요..

다른 모델들의 점수들을 더 비교해보시려면 KMMLU 논문(https://arxiv.org/pdf/2402.11548.pdf) 이나 HyperCLOVA X Technical Report (https://arxiv.org/pdf/2404.01954.pdf) 를 참고해주세요.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 21일 오전 4:15

댓글 0