LLaMA3 모델이 정량적으로는 한국어 능력이 어느 정도인지 궁금해서 다양한 벤치마크에서 뽑아보았습니다. 공개되었는 KMMLU 평가셋에서는 다음과 같은 점수가 나왔습니다. CoT까지 쓴것은 아니고
LLaMA3 모델이 정량적으로는 한국어 능력이 어느 정도인지 궁금해서 다양한 벤치마크에서 뽑아보았습니다. 공개되었는 KMMLU 평가셋에서는 다음과 같은 점수가 나왔습니다. CoT까지 쓴것은 아니고 Prompt를 몇가지 테스트해보고 맞춰봤습니다. llama3-8b-instruct: 38.6 llama3-70b-instruct: 54.5 참고로 chatgpt의 모델들 점수들은... gpt-3.5-turbo: 42.47 gpt-4: 59.95 물론 KMMLU 벤치마크에서는 한국어를 생성하는 것은 아니고, 한국어 문제에 대해 A/B/C/D 중에 답을 하는 사지선다형 문제이기 때문에 모든 한국어 능력을 대변할 수는 없겠지만! 놀랍긴하네요.. 다른 모델들의 점수들을 더 비교해보시려면 KMMLU 논문(https://arxiv.org/pdf/2402.11548.pdf) 이나 HyperCLOVA X Technical Report (https://arxiv.org/pdf/2404.01954.pdf) 를 참고해주세요.