[ PyTorch.kr] W&B, 한국어 LLM 리더보드 ‘Horangi

LLM 운영 및 프롬프트 엔지니어링 최적화 서비스 및 솔루션을 제공하는 Wandb(https://wandb.ai/)에서 '호랑이' LLM 리더보드를 제공합니다. Wandb는 LLM관련 무료 강좌도 일찌감치 제공해서 유명세(?)를 타기도 했었는데, 한국어 리더보드를 제공한다는 것이 매우 흥미롭습니다. 참고로, 일본지사에서 한국어 가능한 머신러닝 엔지니어도 채용하고 있네요. ^^


🐯 Horangi 한국어 LLM 리더보드


🌶️ 개요

  • 거대언어모델(LLM)의 한국어 능력을 평가하기 위한 도구 및 평가 결과 공유


🌶️ 호랑이 리더보드의 기능들

  • 기존에 출시된 유명 LLM들에 대한 평가 결과를 baseline으로 제공

  • 질의응답 형태로 구성된 llm-kr-eval, 프롬프팅 대화에 대한 생성 능력을 평가하는 MT-Bench를 활용한 종합 평가 수행

  • llm-kr-eval의 경우, 근본적인 능력을 측정하기 위해 제로샷 평가 수행

  • W&B의 테이블 기능을 활용한 심층 분석

  • 간편한 비교를 위해 interactive한 모델 비교

  • 사용자가 원한다면 평가 결과를 리더보드에 공유하지 않을수도 있음.


🌶️ 평가 방식 및 도구

  • 공개 평가 데이터셋을 모아놓은 평가 프레임워크 llm-kr-eval 를 활용하여 평가 수행

  • llm-kr-eval : llm-jp-eval 을 한국어에 맞도록 수정한 것

    • DataSet

      • NLI (Natural Language Inference): KorNLI(exact), KoBEST_HellaSwag(exact), KoBEST_COPA(exact)

      • QA (Question Answering): KoBEST_WiC(exact), KMMLU(exact)

      • RC (Reading Comprehension): KorSTS(person, spearman), KoBEST_SN(exact)

      • EL (Entity Linking) : KLUE-NER(set_f1), KLUE-RE(exact)

      • FA (Fundamental Analysis): Korean-CommonGen(bleu)

  • llm-kr-eval 평가 프레임워크를 통해, 벤치마크 평가 데이터셋에 대해서 LLM이 답변한 내용 평가

  • W&B는 이번 리더보드를 위해서 lm-sys의 MT-Bench 를 직접 한국어로 번역하고, 이를 통해 LLM의 생성 능력 평가

  • 제로샷 평가 수행: 100개의 문항을 기준으로 평가를 수행 및 계산합

  • Github: https://github.com/wandb/llm-leaderboard/tree/korean


🌶️ LLM 종합 평가 결과: 1~10는 다음과 같습니다. 이외에도 KT나 Megastudy에서 제시한 모델들도 볼 수 있어 흥미롭습니다.

  • 1) openai/gpt-4

  • 2) gemini-pro

  • 3) mistral-large

  • 4) yanolja/EEVE-Korean-Instruct-10.8B-v1.0

  • 5) openai/gpt-3.5-turbo

  • 6) mistralai/Mixtral-8x7B-Instruct-v0.1

  • 7) mistral-medium

  • 8) anthropic.claude-v2:1

  • 9) Edentns/DataVortexS-10.7B-dpo-v1.11

  • 10) ONS-SOLAR-10.7B-v1.2


  • 머신러닝 엔지니어 채용: https://jobs.lever.co/wandb/7f569fdb-b50d-43f5-8979-885d4a3d77ee


  • 출처: https://wandb.ai/wandb-korea/korean-llm-leaderboard/

Horangi 한국어 LLM 리더보드

W&B

Horangi 한국어 LLM 리더보드

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 5일 오전 11:16

댓글 0

    함께 읽은 게시물

    진짜 1인 개발자 전성시대

    1

    ... 더 보기

    진짜 1인 개발자 전성시대

    K리그 프로그래머

    진짜 1인 개발자 전성시대


    GPT-5 성능도 성능이지만 속도가 굉장히 빠르네요. 이거 생각은 하고 말하는거야? 싶을 정도. 개인적으로는 최상위 성능을 이정도 속도로 뽑아낸다는게 가장 중요한 혁신인 것 같습니다. 성능도 성능이지만 이 속도 덕분에 더욱 많은 것들이 더욱 빠르게 바뀌지않을까 싶습니다.

    조회 1,281


    8월 첫째주: GPT5 와 OpenAI의 오픈소스 출시는 어떤 의미일까?

    G

    ... 더 보기

    2025년 8월 8일 (금) 동동의 테크 타운 : 오호츠크 리포트

    55check.com

    2025년 8월 8일 (금) 동동의 테크 타운 : 오호츠크 리포트

    《콤플렉스는 고통의 실체》

    ... 더 보기

    Building the Facial Recognition System

    최근 AI는 LLM(대규모 언어 모델)의 등장과 함께 강력하고 대중화되었습니다. 많은 사람들이 LLM의 자기 추론 능력과 빅데이터 모델에 대해 의문을 제기하고 있으며, 기업과 기관들은 이 기술을 확보하기 위해 막대한 자금을 투자하고 있습니다. 그러나 개인적인 의견으로는 LLM은 응답 지연(latency)이 크다는 단점이 있습니다. 이로 인해 대규모 데이터 처리를 위해 확장하는 과정에서 비용 손실이 발생할 수 있습니다.

    ... 더 보기

    조회 1,045