골빈해커

Chief Maker

📰 Upstage, 22B 모델 Solar Pro 출시

한국 LLM 오픈소스의 희망 Upstage에서 22B 모델인 Solar Pro 프리뷰 버전을 출시했습니다. Open Weight 모델로 MIT 라이센스이니 편하게 사용 할 수 있겠습니다.

모델 성능은, 22B 의 중간 규모 사이즈이지만 MMLU-Pro, IFEval, HellaSwag 성능에 있어서 Llama 3.1 70B Instruct 모델에 육박하거나 약간 더 좋은 성능을 보여줍니다.

ARC나 GSM8K 등의 추론 능력을 평가하는 벤치에서는 상대적으로 낮은 수준이지만, 언어 능력은 70B에 육박하는 수준이기 때문에 일반적인 챗봇 시스템에 적용한다면 가성비가 뛰어난 모델로 보입니다.

특히 크기가 22B이어서 A100 80GB 단일 GPU에 양자화 없이 사용할 수 있기 때문에, 시스템 구성이 용이해서 특히 운영면에 있어서 성능 대비 가성비가 좋을 것 같습니다.

아쉬운 점은 한국 회사임에도 불구하고 영어 버전부터 공개하였다는 것인데요.(역시 조단위 투자를 받으려면 천조국으로 가긴 해야겠죠.. 🥹) 다행히 정식 버전에서는 일본어/한국어 포함를 포함하고 context length도 확장된다고 합니다.

아무튼 한국 회사가 다시 한 번 세계적으로 뛰어난 모델을 발표해서 기쁩니다. 앞으로 OpenAI를 뛰어넘는 모델도 속속 발표해주시길 기원하겠습니다. (개인적으로.. Groq에도 올려서 초빠른 API를 사용할 수 있게 해 주시면 좋겠..) 😎🍿🥤

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 9월 12일 오전 12:32

저장 5 • 조회 2,341

함께 읽은 게시물

장홍석

스페이스오디티 부대표/CPO

3일 전

< 내가 뭘 원하는지 도무지 모를 때 해야 할 단 한 가지 >

1. 하고 싶다고 생각한 것은 사실 당신의 마음속에서부터 나온 게 아니라, 상식이나 가족, 또는 친구의 기대에 영향받은 것이 많다.

댓글 1 • 저장 5 • 조회 799

골빈해커

Chief Maker

2일 전

몇가지 주제에 대해서 특허 출원을 해 두려고 정리중인데, Claude Code랑 ChatGPT Codex에게 소스에서 알아서 특허 될만한 것 좀 찾아서 정리해봐라고 해 보았다.

결과는 둘 다 상당히 어설프긴 했지만, 둘 다 내가 생각하고 있던 것도 일부 찾아내서 신기했다.

저장 1 • 조회 560

이양일

NaverCloud 백엔드 개발자

7월 18일

MCP 모르면 대체 얼마나 손해 보는 걸까?🤔

올

MCP 모르면 대체 얼마나 손해 보는 걸까? | 요즘IT

요즘IT

•

댓글 1 • 저장 28 • 조회 3,127

석민

커리어 코치

하루 전

My Principles

저장 2 • 조회 298

비슷한 게시물

골빈해커 Chief Maker

Mistral Large 2 123B이 발표되었네요. Llama 3.1 이 발표된지 하루만인데요. 이번주는 고맙게도 도파민 주간으로 정했나봅니다. ㅋㅋ 아무튼 면면을 살펴보면,

골빈해커 Chief Maker

📰 OpenAI, 50% 저렴한 Batch API 출시

골빈해커 Chief Maker

OpenAI의 새로운 모델인 o1의 특수한 점은, 생각하는 시간이 길어지면 성능도 지속적으로 올라간다는 것이네요. 사전학습도 마찬가지고요.

골빈해커 Chief Maker

o1 패러다임과 기존의 CoT(Chain-of-Thought) 방식이 같은 것 아니냐는 이야기에 OpenAI의 리서처가 그 둘은 큰 차이가 있다고 설명했는데요.

골빈해커 Chief Maker

OpenAI와 Anthropic의 행보를 보았을 때, OpenAI가 Anthropic에 비해 상대적으로 엔지니어링에 더 힘을 주고 있는 것 같다. API 스펙을 보면 알 수 있는데

골빈해커 Chief Maker

🗞️ OpenAI, 새로운 AI 모델 o1 발표!

주간 인기 TOP 10

권태관 NAVER 소프트웨어 엔지니어

퇴사 부검 : 네이버를 떠나며

이양일 NaverCloud 백엔드 개발자

요구사항 변화에 따른 프로젝트 구조 확장 ⛏

K리그 프로그래머 커피한잔 개발자

컨텍스트 스위칭 - AI 코딩 부작용

유용우(요우) NAVER 백엔드 개발자

"배포했으면 스펙이지"

장홍석 스페이스오디티 부대표/CPO

< 당신이 바쁜데도 성과가 없는 이유 >

석민 커리어 코치

살아있네

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

퇴근길 지하철에서 중년 사내와 20대 후반의 한 젊은이가 필자의

레드버스백맨 리서처 앤 라이터

《기다림이 허락되지 않는 시대》

달레 Apollo GraphQL Software Engineer

👦🐍 7살 아이에게 파이썬을 가르칠 수 있을까요?

Arawn Park Senior Engineer & Engineering Lead

전문가의 태도를 배울 수 있는 강의

📰 Upstage, 22B 모델 Solar Pro 출시

댓글 0

함께 읽은 게시물

< 내가 뭘 원하는지 도무지 모를 때 해야 할 단 한 가지 >

MCP 모르면 대체 얼마나 손해 보는 걸까?🤔

My Principles

비슷한 게시물

주간 인기 TOP 10

추천 프로필