음성을 곧바로 번역해 주는 AudioPaLM

얼마 전 구글이 AudioPaLM이라는 연구를 공개했습니다. 모델이나 코드를 공개한 것은 아니고 논문과 샘플 데이터만 공개한 것이긴 한데, 꽤 흥미롭습니다. - 링크 : https://google-research.github.io/seanet/audiopalm/examples/ 기존의 PaLM 같은 text LLM과 AudioLM 같은 audio LLM 을 합친 구조라고 합니다. ASR 뿐만 아니라 speech를 곧바로 번역하거나, 심지어는 speech to speech translation 즉 화자의 원래 목소리와 비슷하게 번역된 audio를 생성할 수도 있습니다. 심지어 학습 셋에 없던 translation pair에 대해서도 동작한다고 하니 꽤 놀랍습니다. 물론 cherry pick 된 결과만 올려놓은 것이긴 하겠지만, 그럼에도 불구하고 정말 흥미로운 결과입니다.

AudioPaLM

google-research.github.io

AudioPaLM

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2023년 6월 28일 오전 2:16

댓글 0

    함께 읽은 게시물

    데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

    ... 더 보기

    - YouTube

    www.youtube.com

     - YouTube

    그러고보니, 예전에는 입사 지원서에 희망연봉란이 있었는데 언젠가부터 사라졌네요. 왜 없어진걸까요? 제일 중요한건데…


    채용과정은 지원자나 회사입장에서나 엄청난 시간과 노력이 드는거라, 합격했는데 연봉 수준이 안맞아서 취소되면 그 앞의 노력이 얼마나 허무한디…