[OpenAI] GPT-4o

미국시간으로 5월13일 OpenAI가 발표한 GPT-4o(옴니)의 내용을 정리해봅니다. * 주요 내용 * GPT-4omni(옴니=모든것) * 텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력과 출력 * 최소 232밀리초, 평균 320밀리초만에 오디오 입력과 응답으로 사람의 응답시간과 비슷한 수준 * 영어 텍스트 및 코드에 대한 GPT-4 터보 성능과 비슷하며, 비영어권 언어의 텍스트에 대한 성능이 크게 향상됨. * API는 훨씬 빠르고 50% 더 저렴 * 모델 기능 * GPT-4o 이전의 음성 모드는 평균 2.8초(GPT-3.5) 및 5.4초(GPT-4)의 지연 시간 * GPT-3.5 또는 GPT-4는 하나의 단순 모델이 텍스트를 받아 텍스트를 출력하거나 오디오를 텍스트로 변환하는 방식 * GPT-4o는 텍스트, 시각, 오디오에 걸쳐 하나의 새로운 모델을 엔드투엔드로 훈련시켜 모든 입력과 출력을 동일한 신경망으로 처리 * 모델 평가 * GPT-4o는 텍스트, 추론, 코딩 지능에서 GPT-4 터보 수준의 성능 달성 * 추론 능력 향상: COT MMLU(일반 지식 문제)에서 88.7%라는 새로운 최고 점수 기록 / 기존의 5-샷 노-CoT MMLU에서 GPT-4o는 87.2%라는 새로운 최고 점수 기록 * 언어 토큰화 * 한국어 토큰 수 1.7배 감소(45개에서 27개로) * 모델 안전 및 제한 사항 * 학습 데이터 필터링과 사후 학습을 통한 모델 동작 개선 * 사이버 보안, 화생방, 설득, 모델 자율성에 대한 평가 결과 GPT-4o는 어느 항목에서도 중간 위험 이상의 점수를 받지 못함 * 사회 심리학, 편견과 공정성, 잘못된 정보 등의 분야에서 70명 이상의 외부 전문가와 함께 광범위한 외부 레드팀 작업을 거쳐 상호 작용의 안전성을 개선하기 위한 안전 개입 구축 * 모델 가용성 * GPT-4o의 기능은 반복적으로 출시 예정(레드팀 액세스 권한 확장됨) * GPT-4o의 텍스트 및 이미지 기능을 무료 티어와 플러스 사용자에게 제공 예정. 음성모드는 알파버전으로 출시 예정 * GPT-4 터보에 비해 2배 빠른 속도, 절반의 가격, 5배 더 높은 속도 제한 * 새로운 오디오 및 비디오 기능에 대한 API 지원 예정 * Source: https://openai.com/index/hello-gpt-4o/

[OpenAI] GPT-4o

알림