[OpenAI] GPT-4o

미국시간으로 5월13일 OpenAI가 발표한 GPT-4o(옴니)의 내용을 정리해봅니다.


  • 주요 내용

    • GPT-4omni(옴니=모든것)

    • 텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력과 출력

    • 최소 232밀리초, 평균 320밀리초만에 오디오 입력과 응답으로 사람의 응답시간과 비슷한 수준

    • 영어 텍스트 및 코드에 대한 GPT-4 터보 성능과 비슷하며, 비영어권 언어의 텍스트에 대한 성능이 크게 향상됨.

    • API는 훨씬 빠르고 50% 더 저렴


  • 모델 기능

    • GPT-4o 이전의 음성 모드는 평균 2.8초(GPT-3.5) 및 5.4초(GPT-4)의 지연 시간

    • GPT-3.5 또는 GPT-4는 하나의 단순 모델이 텍스트를 받아 텍스트를 출력하거나 오디오를 텍스트로 변환하는 방식

    • GPT-4o는 텍스트, 시각, 오디오에 걸쳐 하나의 새로운 모델을 엔드투엔드로 훈련시켜 모든 입력과 출력을 동일한 신경망으로 처리


  • 모델 평가

    • GPT-4o는 텍스트, 추론, 코딩 지능에서 GPT-4 터보 수준의 성능 달성

    • 추론 능력 향상: COT MMLU(일반 지식 문제)에서 88.7%라는 새로운 최고 점수 기록 / 기존의 5-샷 노-CoT MMLU에서 GPT-4o는 87.2%라는 새로운 최고 점수 기록


  • 언어 토큰화

    • 한국어 토큰 수 1.7배 감소(45개에서 27개로)


  • 모델 안전 및 제한 사항

    • 학습 데이터 필터링과 사후 학습을 통한 모델 동작 개선

    • 사이버 보안, 화생방, 설득, 모델 자율성에 대한 평가 결과 GPT-4o는 어느 항목에서도 중간 위험 이상의 점수를 받지 못함

    • 사회 심리학, 편견과 공정성, 잘못된 정보 등의 분야에서 70명 이상의 외부 전문가와 함께 광범위한 외부 레드팀 작업을 거쳐 상호 작용의 안전성을 개선하기 위한 안전 개입 구축


  • 모델 가용성

    • GPT-4o의 기능은 반복적으로 출시 예정(레드팀 액세스 권한 확장됨)

    • GPT-4o의 텍스트 및 이미지 기능을 무료 티어와 플러스 사용자에게 제공 예정. 음성모드는 알파버전으로 출시 예정

    • GPT-4 터보에 비해 2배 빠른 속도, 절반의 가격, 5배 더 높은 속도 제한

    • 새로운 오디오 및 비디오 기능에 대한 API 지원 예정


  • Source: https://openai.com/index/hello-gpt-4o/

Hello GPT-4o

openai.com

Hello GPT-4o

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 5월 18일 오전 10:47

댓글 0