Introducing GPT-4o
www.youtube.com
https://www.youtube.com/live/DQacCB9tDaw?si=cnqYZ72SWDYbryzi
많이들 보셨겠지만 이번에 공개된 GPT-4o 몇가지 점에서 정말 대단 해 보입니다.
기존의 음성비서는 trigger (음성 키워드든, 버튼이든) 를 통해 STT 하도록 준비시킨 후 STT 모델을 돌려서 나온 text를 NLP 모델에 집어넣고, 여기서 나온 text를 TTS 하는 방식이었습니다.
이번 GPT-4o는 audio를 인식하고 생성하는 기능이 들어갔습니다.
단순한 STT 가 아니라 말하는 것 뿐 아니라 감정이나 데모에서는 자세히 안나왔지만 여러 오디오 인식도 가능해질 것으로 보입니다. 생성하는 부분에서도 TTS 까지 해 주는데, 여러 스타일로 생성하는 것도 가능하고 음악 등도 생성이 충분히 가능해 보이네요.
물론 일반적인 TTS 에 비하면 아직은 안정성이 떨어져 보이는데, (잘 되는 시나리오를 골랐을) 데모에서도 중간에 끊기는 듯한 현상이 있어 보이지만 앞으로 충분히 개선될 만한 부분일 것 같습니다.
API 가격도 저렴해졌는데, 정말 OpenAI 가 항상 한발 앞서 있는 것 같네요!!
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 5월 14일 오전 12:54