[ PyTorch.kr] W&B, 한국어 LLM 리더보드 ‘Horangi

LLM 운영 및 프롬프트 엔지니어링 최적화 서비스 및 솔루션을 제공하는 Wandb(https://wandb.ai/)에서 '호랑이' LLM 리더보드를 제공합니다. Wandb는 LLM관련 무료 강좌도 일찌감치 제공해서 유명세(?)를 타기도 했었는데, 한국어 리더보드를 제공한다는 것이 매우 흥미롭습니다. 참고로, 일본지사에서 한국어 가능한 머신러닝 엔지니어도 채용하고 있네요. ^^


🐯 Horangi 한국어 LLM 리더보드


🌶️ 개요

  • 거대언어모델(LLM)의 한국어 능력을 평가하기 위한 도구 및 평가 결과 공유


🌶️ 호랑이 리더보드의 기능들

  • 기존에 출시된 유명 LLM들에 대한 평가 결과를 baseline으로 제공

  • 질의응답 형태로 구성된 llm-kr-eval, 프롬프팅 대화에 대한 생성 능력을 평가하는 MT-Bench를 활용한 종합 평가 수행

  • llm-kr-eval의 경우, 근본적인 능력을 측정하기 위해 제로샷 평가 수행

  • W&B의 테이블 기능을 활용한 심층 분석

  • 간편한 비교를 위해 interactive한 모델 비교

  • 사용자가 원한다면 평가 결과를 리더보드에 공유하지 않을수도 있음.


🌶️ 평가 방식 및 도구

  • 공개 평가 데이터셋을 모아놓은 평가 프레임워크 llm-kr-eval 를 활용하여 평가 수행

  • llm-kr-eval : llm-jp-eval 을 한국어에 맞도록 수정한 것

    • DataSet

      • NLI (Natural Language Inference): KorNLI(exact), KoBEST_HellaSwag(exact), KoBEST_COPA(exact)

      • QA (Question Answering): KoBEST_WiC(exact), KMMLU(exact)

      • RC (Reading Comprehension): KorSTS(person, spearman), KoBEST_SN(exact)

      • EL (Entity Linking) : KLUE-NER(set_f1), KLUE-RE(exact)

      • FA (Fundamental Analysis): Korean-CommonGen(bleu)

  • llm-kr-eval 평가 프레임워크를 통해, 벤치마크 평가 데이터셋에 대해서 LLM이 답변한 내용 평가

  • W&B는 이번 리더보드를 위해서 lm-sys의 MT-Bench 를 직접 한국어로 번역하고, 이를 통해 LLM의 생성 능력 평가

  • 제로샷 평가 수행: 100개의 문항을 기준으로 평가를 수행 및 계산합

  • Github: https://github.com/wandb/llm-leaderboard/tree/korean


🌶️ LLM 종합 평가 결과: 1~10는 다음과 같습니다. 이외에도 KT나 Megastudy에서 제시한 모델들도 볼 수 있어 흥미롭습니다.

  • 1) openai/gpt-4

  • 2) gemini-pro

  • 3) mistral-large

  • 4) yanolja/EEVE-Korean-Instruct-10.8B-v1.0

  • 5) openai/gpt-3.5-turbo

  • 6) mistralai/Mixtral-8x7B-Instruct-v0.1

  • 7) mistral-medium

  • 8) anthropic.claude-v2:1

  • 9) Edentns/DataVortexS-10.7B-dpo-v1.11

  • 10) ONS-SOLAR-10.7B-v1.2


  • 머신러닝 엔지니어 채용: https://jobs.lever.co/wandb/7f569fdb-b50d-43f5-8979-885d4a3d77ee


  • 출처: https://wandb.ai/wandb-korea/korean-llm-leaderboard/

Horangi 한국어 LLM 리더보드

W&B

Horangi 한국어 LLM 리더보드

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 5일 오전 11:16

댓글 0

    함께 읽은 게시물

    넥스트증권이 미국 대형 증권사 인터랙티브 브로커스(Interactive Brokers)로부터 전략적 투자를 유치했다고 11일 밝혔다.

    ... 더 보기

    넥스트증권, 미국 대형 증권사서 150억 전략적 투자 유치 - 매일경제

    매일경제

    넥스트증권, 미국 대형 증권사서 150억 전략적 투자 유치 - 매일경제

    조회 655


    뤼튼의 누적 투자 유치액은 약 1300억원으로 분석됐다. 뤼튼에 따르면 거대언어모델(LLM)·반도체가 아닌 AI 서비스 플랫폼 분야 스타트업이 누적 투자액 1000억원을 넘은 것은 처음이다.

    ... 더 보기

    뤼튼, 1080억원 규모 시리즈B 투자 유치

    조선비즈

    뤼튼, 1080억원 규모 시리즈B 투자 유치

    < 내 안의 비평가에 맞서는 법: 이름을 붙이고 무시하기 >

    1

    ... 더 보기


    왜 요즘 ‘토스 결제 단말기’를 들여놓은 가게가 많이 보일까?

    요즘 오프라인 가게에서 점점 더 많이 보이는 ‘토스 결제 단말기’. 그 이유를 알아보니, ❶ 투박한 카드 결제기를 ‘고객 경험 요소’로 탈바꿈시켰고 ❷ 포스 프로그램 무료화로 사장님들의 경제적 부담을 덜어줬다. 그리고 이 모든 것에는 ‘데이터’에 관한 토스의 큰 그림이 녹아있다.

    왜 요즘 ‘토스 결제 단말기’를 들여놓은 가게가 많이 보일까?

    thinknote | 제 생각과 제게 영감을 준 브랜드와 트렌드 이야기를 다룹니다

    왜 요즘 ‘토스 결제 단말기’를 들여놓은 가게가 많이 보일까?

    《디자인하는 사람이라면 '수단과 목적을 헷갈리지 말자'》

    ... 더 보기

    사용자가 공유한 콘텐츠

    www.folin.co

    사용자가 공유한 콘텐츠