Hello GPT-4o
openai.com
미국시간으로 5월13일 OpenAI가 발표한 GPT-4o(옴니)의 내용을 정리해봅니다.
주요 내용
GPT-4omni(옴니=모든것)
텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력과 출력
최소 232밀리초, 평균 320밀리초만에 오디오 입력과 응답으로 사람의 응답시간과 비슷한 수준
영어 텍스트 및 코드에 대한 GPT-4 터보 성능과 비슷하며, 비영어권 언어의 텍스트에 대한 성능이 크게 향상됨.
API는 훨씬 빠르고 50% 더 저렴
모델 기능
GPT-4o 이전의 음성 모드는 평균 2.8초(GPT-3.5) 및 5.4초(GPT-4)의 지연 시간
GPT-3.5 또는 GPT-4는 하나의 단순 모델이 텍스트를 받아 텍스트를 출력하거나 오디오를 텍스트로 변환하는 방식
GPT-4o는 텍스트, 시각, 오디오에 걸쳐 하나의 새로운 모델을 엔드투엔드로 훈련시켜 모든 입력과 출력을 동일한 신경망으로 처리
모델 평가
GPT-4o는 텍스트, 추론, 코딩 지능에서 GPT-4 터보 수준의 성능 달성
추론 능력 향상: COT MMLU(일반 지식 문제)에서 88.7%라는 새로운 최고 점수 기록 / 기존의 5-샷 노-CoT MMLU에서 GPT-4o는 87.2%라는 새로운 최고 점수 기록
언어 토큰화
한국어 토큰 수 1.7배 감소(45개에서 27개로)
모델 안전 및 제한 사항
학습 데이터 필터링과 사후 학습을 통한 모델 동작 개선
사이버 보안, 화생방, 설득, 모델 자율성에 대한 평가 결과 GPT-4o는 어느 항목에서도 중간 위험 이상의 점수를 받지 못함
사회 심리학, 편견과 공정성, 잘못된 정보 등의 분야에서 70명 이상의 외부 전문가와 함께 광범위한 외부 레드팀 작업을 거쳐 상호 작용의 안전성을 개선하기 위한 안전 개입 구축
모델 가용성
GPT-4o의 기능은 반복적으로 출시 예정(레드팀 액세스 권한 확장됨)
GPT-4o의 텍스트 및 이미지 기능을 무료 티어와 플러스 사용자에게 제공 예정. 음성모드는 알파버전으로 출시 예정
GPT-4 터보에 비해 2배 빠른 속도, 절반의 가격, 5배 더 높은 속도 제한
새로운 오디오 및 비디오 기능에 대한 API 지원 예정
Source: https://openai.com/index/hello-gpt-4o/
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 5월 18일 오전 10:47