Anthropic 의 새로운 소식입니다.Claude, Haiku 업데이트

오늘은 Anthropic 의 새로운 소식입니다(Claude, Haiku 업데이트, Computer Use 기능)

[출처]

  • https://www.anthropic.com/news/3-5-models-and-computer-use

  • https://docs.anthropic.com/en/docs/about-claude/models


----


1. Claude 3.5 Sonnet 업데이트 및 벤치마크

이미 업데이트 완료(모델명: claude-3-5-sonnet-20241022)


a) 코딩 능력 향상

• SWE-bench Verified 점수(기존: 33.4% → 신규: 49.0%)

- OpenAI의 o1-preview 등 다른 모델들보다 높은 점수 기록

- 전문 코딩 시스템들보다도 우수한 성능


b) 도구 사용 능력 (TAU-bench) 향상

• 리테일 도메인(기존: 62.6% → 신규: 69.2%)

• 항공 도메인 (더 복잡한 과제)

- 기존: 36.0% → 신규: 46.0%


c) 실제 고객사 피드백

i) GitLab

- DevSecOps 작업에서 추론 능력 10% 향상

- 지연 시간 증가 없음

- 다단계 소프트웨어 개발 프로세스에 적합

ii) Cognition

- 이전 버전 대비 코딩, 기획, 문제해결 능력 큰 폭 개선

iii) The Browser Company

- 웹 기반 워크플로우 자동화 테스트에서

- 지금까지 테스트한 모든 모델 중 최고 성능 기록


----

2. Claude 3.5 Haiku 업데이트 소식(곧 예정)

a) 주요 특징

- Claude 3 Haiku와 유사한 속도 유지(빠른 처리 속도)

- 동일한 비용으로 더 높은 성능 제공


b) 성능 향상

📊 벤치마크 성과

• 코딩 능력(SWE-bench Verified: 40.6% 기록)

- 이전 Claude 3.5 Sonnet과 GPT-4o 능가

- Claude 3 Opus(이전 최고 모델)와 동등한 수준

- 모든 스킬셋에서 성능 향상

• 향후 출시 일정

- 1단계: 텍스트 전용 모델

- 2단계: 이미지 입력 기능 추가 예정


----


3. Computer Use 기능 상세 분석

a) 핵심 특징: AI 의 실제 컴퓨터 사용

• Claude가 실제 사람처럼 컴퓨터 작업 수행

- 화면을 보고 정보 인식

- 마우스 커서 이동 및 클릭

- 키보드로 텍스트 입력

- 웹브라우저 탐색

- 폼 작성 및 데이터 입력


b) 기술적 특징

• API integration 방식으로 구현

- 개발자가 API 통합 시 Claude가 컴퓨터 인터페이스와 상호작용

- 자연어 명령을 컴퓨터 동작으로 변환

예시) "컴퓨터의 데이터로 이 양식을 작성해줘" →

- 스프레드시트 확인

- 웹브라우저 실행

- 관련 웹페이지 탐색

- 데이터 수집 및 양식 작성


c) 성능 평가

📊 OSWorld 벤치마크 결과

• 스크린샷만 사용 시

- Claude 3.5 Sonnet: 14.9% (VS. 타 AI 시스템 최고 기록: 7.8%)

• 추가 단계 허용 시: 22.0%


d) 현재 한계점

• 기본적인 컴퓨터 조작의 어려움, 스크롤링, 드래그앤 드롭, 화면 확대/축소, 오류 발생 가능성 등


💻 Computer Use 영상: https://youtu.be/ODaHJzOyVCQ?si=XZEtviWogG3CYXea


-----


(LangChain 에서 동작 테스트)

💻 코드: https://github.com/teddylee777/langchain-kr/blob/main/04-Model/01-Chat-Models.ipynb


----


from langchain_anthropic import ChatAnthropic

from langchain_teddynote.messages import stream_response

# ChatAnthropic (Claude-3-5-sonnet-20241022)

anthropic = ChatAnthropic(model_name="claude-3-5-sonnet-20241022")

# 스트리밍 출력을 위하여 invoke() 대신 stream()을 사용합니다.

answer = anthropic.stream("사랑이 뭔가요?")

# 답변 출력

stream_response(answer)


----


#anthropic #claude #haiku

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku

www.anthropic.com

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 10월 22일 오후 4:05

댓글 0

    함께 읽은 게시물

    오픈 소스 라이선스 가이드

    ... 더 보기

    오픈 소스 라이선스 가이드

    www.daleseo.com

    오픈 소스 라이선스 가이드

     • 

    저장 25 • 조회 3,324


    👋 굿바이 Styled Components 🥹

    S

    ... 더 보기

    Thank you - styled-components

    opencollective.com

    Thank you - styled-components

     • 

    저장 9 • 조회 1,396


    유안타증권 AI Agent 프로젝트: 실전 LLM 서비스 개발(고생)기

    ... 더 보기

    유안타증권 AI Agent 프로젝트: 실전 LLM 서비스 개발(고생)기

    Medium

    유안타증권 AI Agent 프로젝트: 실전 LLM 서비스 개발(고생)기

    사이드 프로젝트 34개를 만들고 느낀점 10가지

    1️⃣ 아이디어의 가치는 실행했을 때 비로소 생긴다.

    ... 더 보기

     • 

    저장 130 • 조회 5,022


    Marquee가 뭘까?!

    ... 더 보기

    Marquee

    iOYES

    Marquee

    트레바리 <리서치 하는데요> 북클럽에서 꼽은 문장들

    ... 더 보기