LLaMA3 모델이 정량적으로는 한국어 능력이 어느 정도인지 궁금해서 다양한 벤치마크에서 뽑아보았습니다. 공개되었는 KMMLU 평가셋에서는 다음과 같은 점수가 나왔습니다. CoT까지 쓴것은 아니고 Prompt를 몇가지 테스트해보고 맞춰봤습니다.


llama3-8b-instruct: 38.6

llama3-70b-instruct: 54.5


참고로 chatgpt의 모델들 점수들은...

gpt-3.5-turbo: 42.47

gpt-4: 59.95


물론 KMMLU 벤치마크에서는 한국어를 생성하는 것은 아니고, 한국어 문제에 대해 A/B/C/D 중에 답을 하는 사지선다형 문제이기 때문에 모든 한국어 능력을 대변할 수는 없겠지만! 놀랍긴하네요..

다른 모델들의 점수들을 더 비교해보시려면 KMMLU 논문(https://arxiv.org/pdf/2402.11548.pdf) 이나 HyperCLOVA X Technical Report (https://arxiv.org/pdf/2404.01954.pdf) 를 참고해주세요.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 21일 오전 4:15

댓글 0

    함께 읽은 게시물

    OpenAI가 발표한 Codex의 핵심은 AI와 함께 진짜 팀으로 일하는 것 같은 경험을 준다는거네요.


    기존의 코딩 어시스턴트는 Agent라는 이름을 붙였어도 결국은 자동완성의 확장에 그치는 것이라, 즉, 나의 뇌를 확장하는 것이라 한계가 좀 명확했는데요.


    ... 더 보기

    조회 1,418


    주니어 개발자들이 읽으면 좋은 테크 아티클 모음📚

    F-Lab 에서 주니어 개발자들이(사실 개발자라면 누구나) 보시면 좋을 아티클 모음을 공유해 주었네요! 검색엔진부터 비동기 처리, NoSQL 등 다양한 분야의 아티클들이 공유되어 있으니 관심있으신 분들은 보시면 좋겠습니다. F-Lab 에서 공유해주신 아티클 주제를 나열해보면 다음과 같습니다. 📌 구글이 직접 말하는 검색엔진의 원리 (tali.kr) 📌 검색 엔진은 어떻게 작동하는가 (xo.dev) 📌 네이버의 검색엔진의 특징과 알고리즘 (tistory.com) 📌 [네이버 블로그]네이버 검색의 원리 : 네이버 블... 더 보기

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음

    F-Lab : 상위 1% 개발자들의 멘토링

    주니어 개발자들이 읽으면 좋은 테크 아티클 모음

     • 

    저장 120 • 조회 3,349


    타입 안전한 API 모킹으로 프론트엔드 생산성 높이기

    이번에 우아한형제들 기술 블로그에 "타입 안전한 API 모킹으로 프론트엔드 생산성 높이기"라는 새 글을 발행하게 되었습니다.

    ... 더 보기

    📰 인공지능만으로 운영된 스타트업의 실패


    카네기 멜론 대학교의 연구자들은 “TheAgentCompany”라는 회사를 만들었다. 이 회사는 AI 모델들이 소프트웨어 엔지니어, 재무 분석가, 프로젝트 매니저로 일하는 곳.


    ... 더 보기