"챗봇 아레나" 에 대해 들어보셨나요?

허깅페이스에서는 크라우드소싱 방식의 익명으로 무작위 대결을 펼치는 대규모 언어 모델(LLM)을 위한 벤치마크 플랫폼인 챗봇 아레나를 열어 주기적으로 순위표를 업데이트 하고 있습니다. 13만명 이상의 사용자 투표를 통해 챗봇의 Elo 등급을 계산하여 순위를 정하고 있습니다.

Elo 레이팅 시스템이란, 체스와 같은 게임에서 플레이어의 상대적인 실력을 평가하기 위해 만들어진 시스템으로, 각 플레이어에게 특정 숫자의 점수를 할당합니다. 이 점수는 플레이어가 다른 플레이어와 경기를 할 때 승리하거나 패배할 때 증감되며, 이를 통해 플레이어의 전반적인 실력을 숫자로 표현할 수 있습니다.

챗봇 아레나에서도 비슷한 방식으로, 챗봇들의 대화 능력이나 사용자와의 상호작용을 평가하기 위해 ELO 레이팅 시스템을 적용했습니다. 각 챗봇은 경쟁적인 상호작용이나 테스트를 통해 점수를 얻거나 잃을 수 있으며, 이 점수는 챗봇의 전반적인 성능을 반영하게 됩니다.

챗봇 아레나는 아래와 같은 UI 를 제공하는데요. 두 개의 모델을 블라인드 처리하고, 같은 질문에 대한 결과를 보고 참여자가 직접 비교하여 A와 B 둘 중에 어떤 답변이 좋은지 선택하는 방식입니다. 어떤 답변이 나은지 선택을 하면 점수에 반영이 되고, A와 B가 각각 어떤 모델인지 나오게 됩니다.

물론 아래 URL 에서 직접 참여 해보실 수 있습니다.

https://arena.lmsys.org

자, 그렇다면 현재 1위 챗봇 모델은 어떤걸까요?

얼마 전 OpenAI의 수석 AI 엔지니어인 안드레이 카파시도 챗봇 아레나의 결과에 대해 긍정적인 트윗을 올리기도 했는데요. 그 이유는 아무래도 OpenAI 의 LLM이 선두를 지키고 있기 때문이지 않을까 하는 생각이 드네요. 😎

역시나 리더보드에서는 DevDay에서 공개한 GPT-4-Turbo 가 현재 1243점으로 선두를 달리고 있는 것을 확인할 수 있습니다. GPT-4 -> Claude -> Mixtral-8x7b -> GPT-3.5 -> Gemini Pro 순입니다.

전체 리더보드에는 Elo 레이팅 점수 뿐만 아니라 GPT-4 를 사용하여 모델 응답을 채점한 MT-bench 와 57개 작업에 대해 모델의 멀티테스크 정확도를 측정한 MMLU (5shot) 도 제공하고 있으니 함께 참고해 보실 수 있습니다.

👉 전체 리더보드 확인하기

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

잠깐, 여기서 우리는 관심을 갖고 볼만한 것들이 있는데요.

ChatGPT, Claude, Gemini 사이에서 활약하고 있는 오픈소스 LLM 이 눈에 띕니다.

바로 Mixtral-8x7b-Instruct-v0.1 이라는 모델입니다.

단 7B 수준의 모델 8개를 MoE 형태로 사용하여 Llama-2 70B를 앞서서 화제입니다. Mixtral 8x7B는 전문가 혼합 (MoE) 네트워크를 채용함으로써 모든 토큰에 대해 라우터를 통해 그룹 중 두 그룹(전문가) 를 선택하여 토큰을 처리하고 출력을 합산하여 결합하는 형태를 사용합니다. 총 파라미터가 467억 개이지만 토큰당 파라미터는 129억 개만 사용하기 때문에 입출력 속도도 크게 개선됩니다.

그리고 순위에 보이는 Tulu-2-DPO-70B 모델은 Llama2 를 파인튜닝한 모델이며, Yi-34B-Chat 은 Yi–34B 모델을 파인튜닝한 버전으로 01.ai 팀에서 Llama와 동일한 아키텍처로 새로 학습한 모델입니다.

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 12월 31일 오전 1:16

저장 2 • 조회 4,391

비슷한 게시물

주간 인기 TOP 10

장홍석 스페이스오디티 부대표/CPO

< 일의 본질은 마지막에 있다 >

장홍석 스페이스오디티 부대표/CPO

< 인생의 본질은 What이 아니라 How다 >

레드버스백맨 리서처 앤 라이터

《Local Optimum》

레드버스백맨 리서처 앤 라이터

《디자이너가 알아야 할 데이터》

김의중 프론트엔드 개발자

'요즘IT'에 'AI로 10분 만에 테스트 코드 완성하기' 라는

달레 Apollo GraphQL Software Engineer

AI가 바꿔버린 웹의 질서, Cloudflare가 던진 균형의 해

김훈영 엔씨소프트 / Product Manager

LLM 챗봇 데모 (Hybrid: Rule + RAG)

진용진 Product manager

Cursor 팀은 프로덕트 디스커버리를 어떻게 하는가?

골빈해커 Chief Maker

오늘의 취미 코딩. 뚝딱! 쿼리 생성에 필요한 컨텍스트를 넣는

K리그 프로그래머 커피한잔 개발자

꾸준하게 하는 방법

"챗봇 아레나" 에 대해 들어보셨나요?

댓글 0

비슷한 게시물

주간 인기 TOP 10

추천 프로필