📰 Upstage, 22B 모델 Solar Pro 출시

한국 LLM 오픈소스의 희망 Upstage에서 22B 모델인 Solar Pro 프리뷰 버전을 출시했습니다. Open Weight 모델로 MIT 라이센스이니 편하게 사용 할 수 있겠습니다.


모델 성능은, 22B 의 중간 규모 사이즈이지만 MMLU-Pro, IFEval, HellaSwag 성능에 있어서 Llama 3.1 70B Instruct 모델에 육박하거나 약간 더 좋은 성능을 보여줍니다.


ARC나 GSM8K 등의 추론 능력을 평가하는 벤치에서는 상대적으로 낮은 수준이지만, 언어 능력은 70B에 육박하는 수준이기 때문에 일반적인 챗봇 시스템에 적용한다면 가성비가 뛰어난 모델로 보입니다.


특히 크기가 22B이어서 A100 80GB 단일 GPU에 양자화 없이 사용할 수 있기 때문에, 시스템 구성이 용이해서 특히 운영면에 있어서 성능 대비 가성비가 좋을 것 같습니다.


아쉬운 점은 한국 회사임에도 불구하고 영어 버전부터 공개하였다는 것인데요.(역시 조단위 투자를 받으려면 천조국으로 가긴 해야겠죠.. 🥹) 다행히 정식 버전에서는 일본어/한국어 포함를 포함하고 context length도 확장된다고 합니다.


아무튼 한국 회사가 다시 한 번 세계적으로 뛰어난 모델을 발표해서 기쁩니다. 앞으로 OpenAI를 뛰어넘는 모델도 속속 발표해주시길 기원하겠습니다. (개인적으로.. Groq에도 올려서 초빠른 API를 사용할 수 있게 해 주시면 좋겠..) 😎🍿🥤

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 12일 오전 12:32

댓글 0

    함께 읽은 게시물

    많은 조직에서, 실험을 ‘revenue 지표 향상시키는 아이디어 찾아내기’ 내지는 ‘기획안 통과시키기 위한 근거찾기’ 정도로 여기곤 합니다. 그리고 그런 숫자들을 어떻게든 찾아내는 일을 데이터 분석이라고 부르려 하죠. 적어도 제가 리딩하는 팀에서 하고자 하는 실험과 분석은, 그런 것이 아닙니다.

    ... 더 보기

     • 

    저장 10 • 조회 1,432


    요약하며 읽기

    ... 더 보기

    11화 요약하며 읽기

    Brunch Story

    11화 요약하며 읽기

    바이브 코딩이야말로 진정한 애자일이 아닌가.

    조회 2,885


    업계에 필요한 사람이 되자

    ... 더 보기

    업계에 필요한 사람이 되자

    Brunch Story

    업계에 필요한 사람이 되자

     • 

    저장 7 • 조회 1,246


    작은 브랜드는 이걸 보셔야 해요.

    브랜드와 고객 사이에 ‘접점’이 있어요.
    채널로는 웹, SNS, 오프라인,광고, 디지털 채널들.

    ... 더 보기

    한시간 반만에 Cursor로 만든 개발서적 경매서비스 후기

    ... 더 보기

    Cursor로 한시간 반만에 만든 책 경매 서비스 - Blog by Jason Kang

    jasonkang14.github.io

    Cursor로 한시간 반만에 만든 책 경매 서비스 - Blog by Jason Kang

     • 

    저장 38 • 조회 3,825