얼마 전 구글이 AudioPaLM이라는 연구를 공개했습니다. 모델이나 코드를 공개한 것은 아니고 논문과 샘플 데이터만 공개한 것이긴 한데, 꽤 흥미롭습니다.
- 링크 : https://google-research.github.io/seanet/audiopalm/examples/
기존의 PaLM 같은 text LLM과 AudioLM 같은 audio LLM 을 합친 구조라고 합니다. ASR 뿐만 아니라 speech를 곧바로 번역하거나, 심지어는 speech to speech translation 즉 화자의 원래 목소리와 비슷하게 번역된 audio를 생성할 수도 있습니다. 심지어 학습 셋에 없던 translation pair에 대해서도 동작한다고 하니 꽤 놀랍습니다.
물론 cherry pick 된 결과만 올려놓은 것이긴 하겠지만, 그럼에도 불구하고 정말 흥미로운 결과입니다.