"챗봇 아레나" 에 대해 들어보셨나요?

허깅페이스에서는 크라우드소싱 방식의 익명으로 무작위 대결을 펼치는 대규모 언어 모델(LLM)을 위한 벤치마크 플랫폼인 챗봇 아레나를 열어 주기적으로 순위표를 업데이트 하고 있습니다. 13만명 이상의 사용자 투표를 통해 챗봇의 Elo 등급을 계산하여 순위를 정하고 있습니다. 


Elo 레이팅 시스템이란, 체스와 같은 게임에서 플레이어의 상대적인 실력을 평가하기 위해 만들어진 시스템으로, 각 플레이어에게 특정 숫자의 점수를 할당합니다. 이 점수는 플레이어가 다른 플레이어와 경기를 할 때 승리하거나 패배할 때 증감되며, 이를 통해 플레이어의 전반적인 실력을 숫자로 표현할 수 있습니다.


챗봇 아레나에서도 비슷한 방식으로, 챗봇들의 대화 능력이나 사용자와의 상호작용을 평가하기 위해 ELO 레이팅 시스템을 적용했습니다. 각 챗봇은 경쟁적인 상호작용이나 테스트를 통해 점수를 얻거나 잃을 수 있으며, 이 점수는 챗봇의 전반적인 성능을 반영하게 됩니다.


챗봇 아레나는 아래와 같은 UI 를 제공하는데요. 두 개의 모델을 블라인드 처리하고, 같은 질문에 대한 결과를 보고 참여자가 직접 비교하여 A와 B 둘 중에 어떤 답변이 좋은지 선택하는 방식입니다. 어떤 답변이 나은지 선택을 하면 점수에 반영이 되고, A와 B가 각각 어떤 모델인지 나오게 됩니다.


물론 아래 URL 에서 직접 참여 해보실 수 있습니다.


https://arena.lmsys.org


자, 그렇다면 현재 1위 챗봇 모델은 어떤걸까요?


얼마 전 OpenAI의 수석 AI 엔지니어인 안드레이 카파시도 챗봇 아레나의 결과에 대해 긍정적인 트윗을 올리기도 했는데요. 그 이유는 아무래도 OpenAI 의 LLM이 선두를 지키고 있기 때문이지 않을까 하는 생각이 드네요. 😎


역시나 리더보드에서는 DevDay에서 공개한 GPT-4-Turbo 가 현재 1243점으로 선두를 달리고 있는 것을 확인할 수 있습니다. GPT-4 -> Claude -> Mixtral-8x7b -> GPT-3.5 -> Gemini Pro 순입니다.


전체 리더보드에는 Elo 레이팅 점수 뿐만 아니라 GPT-4 를 사용하여 모델 응답을 채점한 MT-bench 와 57개 작업에 대해 모델의 멀티테스크 정확도를 측정한 MMLU (5shot) 도 제공하고 있으니 함께 참고해 보실 수 있습니다. 


👉 전체 리더보드 확인하기

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard


잠깐, 여기서 우리는 관심을 갖고 볼만한 것들이 있는데요.

ChatGPT, Claude, Gemini 사이에서 활약하고 있는 오픈소스 LLM 이 눈에 띕니다.


바로 Mixtral-8x7b-Instruct-v0.1 이라는 모델입니다.


단 7B 수준의 모델 8개를 MoE 형태로 사용하여 Llama-2 70B를 앞서서 화제입니다. Mixtral 8x7B는 전문가 혼합 (MoE) 네트워크를 채용함으로써 모든 토큰에 대해 라우터를 통해 그룹 중 두 그룹(전문가) 를 선택하여 토큰을 처리하고 출력을 합산하여 결합하는 형태를 사용합니다. 총 파라미터가 467억 개이지만 토큰당 파라미터는 129억 개만 사용하기 때문에 입출력 속도도 크게 개선됩니다.


그리고 순위에 보이는 Tulu-2-DPO-70B 모델은 Llama2 를 파인튜닝한 모델이며, Yi-34B-Chat 은 Yi–34B 모델을 파인튜닝한 버전으로 01.ai 팀에서 Llama와 동일한 아키텍처로 새로 학습한 모델입니다.


다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 12월 31일 오전 1:16

댓글 0

    함께 읽은 게시물

    직장인으로서 10년 정도 일하게 되면 피할 수 없는 순간이 바로 조직에서 리더의 역할을 받게 되는 인사발령이다. 팀원이었을 때는 내게 주어진 업무를 내가 가진 능력과 주변 동료들의 도움으로 해결하고, 그에 합당한 평가와 보상을 기다리며, 나쁘지 않는 리워드와 내 위치에 안도하며 또 새해를 맞이하고 하루하루를 버텨나가는 과정에 큰 어려움이 없다.

    ... 더 보기

     • 

    저장 3 • 조회 735


    [광고] 다음 직무 채용 예정입니다.


    - 프러덕트/사업 기획 1인

    - 프러덕트 디자인 1인

    ... 더 보기


    앱 개발 개척시대

    A

    ... 더 보기

    앱 개발 개척시대

    K리그 프로그래머

    앱 개발 개척시대

     • 

    저장 2 • 조회 787


    하나부터 열까지 리더가 상세히 설명해 주기를 바라는 구성원이 있습니다. 반대로 큰 얼개만 듣고 나머지는 자율적으로 하고 싶어 하는 경우도 있죠. 회식에 참여하는 것을 너무나 힘겨워 하는 구성원이 있는 반면, 동료들과 함께 시간을 보내며 가까워지는 것을 원하는 구성원도 있습니다.

    ... 더 보기

    다양한 구성원을 하나로 모으고 싶다면 - 리더가 가져야 할 모순

    네이버 블로그 | HSG 휴먼솔루션그룹

    다양한 구성원을 하나로 모으고 싶다면 - 리더가 가져야 할 모순

     • 

    저장 5 • 조회 631


    나는 가끔 조합형 한글의 아름다움에 대해 생각한다.


    그 아름다움은 단순히 예쁜 글꼴이나 정갈한 종이 위의 자소 배열에서 끝나지 않는다. 진짜 매력은, 정밀한 정보 구조와 이산 수학적 규칙성 속에 숨어 있다.


    ... 더 보기