현존 최고 LLM은 앤스로픽의 클로드 3.5 소네트, 평가 by 갈릴레이

GenAI 평가를 진행하는 미국 스타트업 Galileo에 따르면, 현재 가장 성능 좋은 LLM은 Anthropic의 클로드 3.5 소네트라고 합니다.


성능, 가성비, 오픈소스 모델 등 다양한 범주로 모델들을 비교 평가 및 추천하고 있는데요,

  • ‘가장 성능이 좋은 모델’에는 앤트로픽에 클로드 3.5 소네트

  • ‘비용 대비 최고의 성능’ 분야는 구글의 ‘제미나이 1.5 플래시’

  • ‘가장 우수한 오픈소스 모델’은 알리바바의 ‘큐원2 72B’가 꼽혔네요


컨텍스트 길이에 따른 평가에서는

  • 짧은 컨텍스트(5000 토큰 이하, 폐쇄형) 클로드 3.5 소네트

  • 짧은 컨텍스트(5000 토큰 이하, 오픈소스) 메타의 라마3-70b

  • 중간 컨텍스트(5000~2만5000 토큰, 폐쇄형) 제미나이 1.5 플래시

  • 중간 컨텍스트(5000~2만5000 토큰, 오픈소스) 큐원 1.5-32B

  • 긴 콘텍스트(4만~10만 토큰) 클로드 3.5 소네트

와 같이 평가되었습니다.


하지만, 이러한 평가는 모델이 업데이트 되면서 계속 바뀌겠죠 ㅎㅎ


https://biz.chosun.com/it-science/ict/2024/08/01/J5B4YCRXTZDTPFUHXH4HGOFDMM/?utm_source=naver&utm_medium=original&utm_campaign=biz

"가장 성능 좋은 LLM은 앤트로픽 '클로드 3.5 소네트'...구글·메타·알리바바도 성능↑"

조선비즈

"가장 성능 좋은 LLM은 앤트로픽 '클로드 3.5 소네트'...구글·메타·알리바바도 성능↑"

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 3일 오후 1:49

 • 

저장 3조회 1,090

댓글 0

    함께 읽은 게시물

    “어? 이거 분명 할 줄 알았는데. 어떻게 했더라? 이렇게 어려웠었나?” 분명히 할 만하다고 생각해서 시작했던 일이 어느덧 시작했던 때보다 더 어렵게 느껴질 때가 있다.

    ... 더 보기

    [박진영의 사회심리학]갈팡질팡은 성장하고 있다는 증거

    m.dongascience.com

    [박진영의 사회심리학]갈팡질팡은 성장하고 있다는 증거

    조회 347


    누구나 쉽게 입을 수 있는 실속형 캐주얼 의류로 고속성장을 일궈온 글로벌 패션업체의 김 사장. 그는 대학 졸업 후 부친이 운영하던 작은 양복점을 물려받아 10년 만에 세계가 주목하는 의류 브랜드로 키워냈다.

    ... 더 보기

    [DBR] 어려울수록 구조조정? ‘No’ 핵심 가치 내재화에 집중하라

    동아비즈니스리뷰

    [DBR] 어려울수록 구조조정? ‘No’ 핵심 가치 내재화에 집중하라

     • 

    저장 4 • 조회 758



    가장 많이 쓰이는 데이터 분석/BI 툴은 무엇일까?

    사실상 엑셀이나 구글 시트가 아닌가 싶다. 이만큼 많은 사람들이 쓸 줄 알고 여러 형태로 분석이 가능하고 결과물을 공유 가능한 툴은 많지 않다. 실제 현업부서들과 일을 해보면 굉장히 많은 데이터들을 구글 시트의 형태로 매뉴얼하게 관리한다. 이 위에서 간단한 차트등을 만들어 지표 관리를 하곤 한다.

    ... 더 보기

    나의 첫 멘토 이야기

    저의 첫 멘토는 하청 업체에서 고용한 프리랜서 개발자였습니다.

    ... 더 보기

     • 

    댓글 1 • 저장 11 • 조회 3,241


    기업가치평가 이해를 위한 회계 기초 모임

    [

    ... 더 보기

    사용자가 공유한 콘텐츠

    bit.ly

    사용자가 공유한 콘텐츠