Kyutai(규태?!)라는 파리 소재의 비영리 연구소에서 GPT-4o와 유사한 수준으로 음성대화가 가능한 모델인 Moshi를 발표했습니다. 음성을 입력받아 바로 음성으로 출력하는 Speech2Sp
Kyutai(규태?!)라는 파리 소재의 비영리 연구소에서 GPT-4o와 유사한 수준으로 음성대화가 가능한 모델인 Moshi를 발표했습니다. 음성을 입력받아 바로 음성으로 출력하는 Speech2Speech 모델로, GPT-4o와 유사하게 감정을 표현하고 이해하는 등의 태스크도 가능합니다. 레이턴시는 E2E로 200ms 수준이며, MacBook 및 소비자 GPU에서 작동하는 소형 모델도 있다고 합니다. 무엇보다 중요한 것은 오픈 소스로 공개 예정이라고..! 오픈 소스 진영의 캐치업 속도가 날이 갈 수록 빨라지는 것 같습니다. 다만, 응답 속도는 꽤 빠르지만, 성능이 GPT-4o 수준까지 되어보이진 않네요. 데모 링크는 댓글에 👇