Horangi 한국어 LLM 리더보드
W&B
LLM 운영 및 프롬프트 엔지니어링 최적화 서비스 및 솔루션을 제공하는 Wandb(https://wandb.ai/)에서 '호랑이' LLM 리더보드를 제공합니다. Wandb는 LLM관련 무료 강좌도 일찌감치 제공해서 유명세(?)를 타기도 했었는데, 한국어 리더보드를 제공한다는 것이 매우 흥미롭습니다. 참고로, 일본지사에서 한국어 가능한 머신러닝 엔지니어도 채용하고 있네요. ^^
🐯 Horangi 한국어 LLM 리더보드
🌶️ 개요
거대언어모델(LLM)의 한국어 능력을 평가하기 위한 도구 및 평가 결과 공유
🌶️ 호랑이 리더보드의 기능들
기존에 출시된 유명 LLM들에 대한 평가 결과를 baseline으로 제공
질의응답 형태로 구성된 llm-kr-eval, 프롬프팅 대화에 대한 생성 능력을 평가하는 MT-Bench를 활용한 종합 평가 수행
llm-kr-eval의 경우, 근본적인 능력을 측정하기 위해 제로샷 평가 수행
W&B의 테이블 기능을 활용한 심층 분석
간편한 비교를 위해 interactive한 모델 비교
사용자가 원한다면 평가 결과를 리더보드에 공유하지 않을수도 있음.
🌶️ 평가 방식 및 도구
공개 평가 데이터셋을 모아놓은 평가 프레임워크 llm-kr-eval 를 활용하여 평가 수행
llm-kr-eval : llm-jp-eval 을 한국어에 맞도록 수정한 것
DataSet
NLI (Natural Language Inference): KorNLI(exact), KoBEST_HellaSwag(exact), KoBEST_COPA(exact)
QA (Question Answering): KoBEST_WiC(exact), KMMLU(exact)
RC (Reading Comprehension): KorSTS(person, spearman), KoBEST_SN(exact)
EL (Entity Linking) : KLUE-NER(set_f1), KLUE-RE(exact)
FA (Fundamental Analysis): Korean-CommonGen(bleu)
llm-kr-eval 평가 프레임워크를 통해, 벤치마크 평가 데이터셋에 대해서 LLM이 답변한 내용 평가
W&B는 이번 리더보드를 위해서 lm-sys의 MT-Bench 를 직접 한국어로 번역하고, 이를 통해 LLM의 생성 능력 평가
제로샷 평가 수행: 100개의 문항을 기준으로 평가를 수행 및 계산합
Github: https://github.com/wandb/llm-leaderboard/tree/korean
🌶️ LLM 종합 평가 결과: 1~10는 다음과 같습니다. 이외에도 KT나 Megastudy에서 제시한 모델들도 볼 수 있어 흥미롭습니다.
1) openai/gpt-4
2) gemini-pro
3) mistral-large
4) yanolja/EEVE-Korean-Instruct-10.8B-v1.0
5) openai/gpt-3.5-turbo
6) mistralai/Mixtral-8x7B-Instruct-v0.1
7) mistral-medium
8) anthropic.claude-v2:1
9) Edentns/DataVortexS-10.7B-dpo-v1.11
10) ONS-SOLAR-10.7B-v1.2
머신러닝 엔지니어 채용: https://jobs.lever.co/wandb/7f569fdb-b50d-43f5-8979-885d4a3d77ee
출처: https://wandb.ai/wandb-korea/korean-llm-leaderboard/
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 4월 5일 오전 11:16
실
... 더 보기GPT-5 성능도 성능이지만 속도가 굉장히 빠르네요. 이거 생각은 하고 말하는거야? 싶을 정도. 개인적으로는 최상위 성능을 이정도 속도로 뽑아낸다는게 가장 중요한 혁신인 것 같습니다. 성능도 성능이지만 이 속도 덕분에 더욱 많은 것들이 더욱 빠르게 바뀌지않을까 싶습니다.
G
... 더 보기최근 AI는 LLM(대규모 언어 모델)의 등장과 함께 강력하고 대중화되었습니다. 많은 사람들이 LLM의 자기 추론 능력과 빅데이터 모델에 대해 의문을 제기하고 있으며, 기업과 기관들은 이 기술을 확보하기 위해 막대한 자금을 투자하고 있습니다. 그러나 개인적인 의견으로는 LLM은 응답 지연(latency)이 크다는 단점이 있습니다. 이로 인해 대규모 데이터 처리를 위해 확장하는 과정에서 비용 손실이 발생할 수 있습니다.
... 더 보기