OpenAI 컨퍼런스에서 음성 생성 API와 더불어 음성 인식 모델인 Whisper 3도 발표했습니다.


다국어를 하나의 모델로 생성할 수 있는 API는 ElevenLabs가 유일했었는데요. (대부분 한국어 음성으로 영어를 말하게 하거나, 영어 음성으로 한국어를 말하게 하면 어색하게 말하는데, ElevenLabs 모델은 다양한 언어를 언어에 맞게 자연스럽게 말합니다)


OpenAI의 음성 생성도 하나의 모델로 다국어를 지원하는 모델입니다.(ChatGPT의 말하기 기능을 보고 예상했습니다만) 품질도 ElevenLabs만큼 뛰어나고, 특히 가격이 약간 더 저렴해서 ElevenLabs의 대안이 될 수 있을 것 같습니다.


Whisper 3는 영어외의 다른 언어들의 성능이 크게 좋아졌는데요. 한국어 성능도 이미 꽤 좋았지만 훨씬 더 좋아졌습니다.


음성 생성도 그렇고 인식도 그렇고, 현재로썬 다국어 이해 수준이 대부분의 언어에 걸쳐서 매우 높은, 거의 유일한 모델인 GPT를 만든 OpenAI 다운 행보가 아닌가 싶습니다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 11월 6일 오후 8:12

 • 

저장 14조회 2,728

댓글 0