WEBNORI
wiki.webnori.com
허깅페이스에서는 크라우드소싱 방식의 익명으로 무작위 대결을 펼치는 대규모 언어 모델(LLM)을 위한 벤치마크 플랫폼인 챗봇 아레나를 열어 주기적으로 순위표를 업데이트 하고 있습니다. 13만명 이상의 사용자 투표를 통해 챗봇의 Elo 등급을 계산하여 순위를 정하고 있습니다.
Elo 레이팅 시스템이란, 체스와 같은 게임에서 플레이어의 상대적인 실력을 평가하기 위해 만들어진 시스템으로, 각 플레이어에게 특정 숫자의 점수를 할당합니다. 이 점수는 플레이어가 다른 플레이어와 경기를 할 때 승리하거나 패배할 때 증감되며, 이를 통해 플레이어의 전반적인 실력을 숫자로 표현할 수 있습니다.
챗봇 아레나에서도 비슷한 방식으로, 챗봇들의 대화 능력이나 사용자와의 상호작용을 평가하기 위해 ELO 레이팅 시스템을 적용했습니다. 각 챗봇은 경쟁적인 상호작용이나 테스트를 통해 점수를 얻거나 잃을 수 있으며, 이 점수는 챗봇의 전반적인 성능을 반영하게 됩니다.
챗봇 아레나는 아래와 같은 UI 를 제공하는데요. 두 개의 모델을 블라인드 처리하고, 같은 질문에 대한 결과를 보고 참여자가 직접 비교하여 A와 B 둘 중에 어떤 답변이 좋은지 선택하는 방식입니다. 어떤 답변이 나은지 선택을 하면 점수에 반영이 되고, A와 B가 각각 어떤 모델인지 나오게 됩니다.
물론 아래 URL 에서 직접 참여 해보실 수 있습니다.
https://arena.lmsys.org
자, 그렇다면 현재 1위 챗봇 모델은 어떤걸까요?
얼마 전 OpenAI의 수석 AI 엔지니어인 안드레이 카파시도 챗봇 아레나의 결과에 대해 긍정적인 트윗을 올리기도 했는데요. 그 이유는 아무래도 OpenAI 의 LLM이 선두를 지키고 있기 때문이지 않을까 하는 생각이 드네요. 😎
역시나 리더보드에서는 DevDay에서 공개한 GPT-4-Turbo 가 현재 1243점으로 선두를 달리고 있는 것을 확인할 수 있습니다. GPT-4 -> Claude -> Mixtral-8x7b -> GPT-3.5 -> Gemini Pro 순입니다.
전체 리더보드에는 Elo 레이팅 점수 뿐만 아니라 GPT-4 를 사용하여 모델 응답을 채점한 MT-bench 와 57개 작업에 대해 모델의 멀티테스크 정확도를 측정한 MMLU (5shot) 도 제공하고 있으니 함께 참고해 보실 수 있습니다.
👉 전체 리더보드 확인하기
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
잠깐, 여기서 우리는 관심을 갖고 볼만한 것들이 있는데요.
ChatGPT, Claude, Gemini 사이에서 활약하고 있는 오픈소스 LLM 이 눈에 띕니다.
바로 Mixtral-8x7b-Instruct-v0.1 이라는 모델입니다.
단 7B 수준의 모델 8개를 MoE 형태로 사용하여 Llama-2 70B를 앞서서 화제입니다. Mixtral 8x7B는 전문가 혼합 (MoE) 네트워크를 채용함으로써 모든 토큰에 대해 라우터를 통해 그룹 중 두 그룹(전문가) 를 선택하여 토큰을 처리하고 출력을 합산하여 결합하는 형태를 사용합니다. 총 파라미터가 467억 개이지만 토큰당 파라미터는 129억 개만 사용하기 때문에 입출력 속도도 크게 개선됩니다.
그리고 순위에 보이는 Tulu-2-DPO-70B 모델은 Llama2 를 파인튜닝한 모델이며, Yi-34B-Chat 은 Yi–34B 모델을 파인튜닝한 버전으로 01.ai 팀에서 Llama와 동일한 아키텍처로 새로 학습한 모델입니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2023년 12월 31일 오전 1:16
고용노동부에서 주관하는 청년미래플러스 3기를 모집 중이라고 합니다.
구직자와 재직자 두 가지 트랙을 동시에 모집한다고 하네요.
모집 기간: 6월 15일 ~ 8월 3일
Partitioner와 Multi Thread를 활용한 Spring Batch 성능 개선
... 더 보기아직 나도 정립되지 않은 상태이긴한데, 실무에서의 바이브 코딩은 다르다.
비단 개발자 관점에서만이 아니라, 기획자, 디자이너도 마찬가지로 다른 방식을 써야한다.
AI와 코딩할 때, 혹시 결과만 말하고 계신가요?
얼마 전 프로필 페이지를 AI와 함께 만들면서 이상한 걸 발견했어요.