텍스트를 음악으로 바꾸어 주는 MusicLM

Google Research에서 text 를 music으로 바꾸어 주는 MusicLM이라는 연구를 공개했습니다. 기존에도 다양한 text-to-audio 관련 연구들이 있었는데요, 퀄리티가 좀 더 향상된 느낌입니다. 아직 코드나 모델이 공개되지는 않았지만 예제를 보면 재미있는게 좀 있네요. 일반적인 text 뿐 아니라 story mode나 image 를 conditioning 하여 생성하는 예시들도 있습니다. 이번 연구와 관련하여 Kaggle에 MusicCaps라는 text-music pair 데이터셋도 공개했다고 합니다: https://www.kaggle.com/datasets/googleai/musiccaps 논문을 대충 살펴보니 기존의 audio representation (SoundStream, w2v-BERT) 이나 music-text joint embedding (MuLan) 최신 연구들을 잘 조합하여 기존보다 좋은 결과를 냈다.. 라고 말하고 있습니다. 아직은 시기상조라고 보이지만 몇 년 내로 music generation 성능이 많이 좋아져서 꽤 많이 상용화 될 수 있지 않을까 싶습니다..!

MusicLM

google-research.github.io

MusicLM

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 1월 27일 오후 4:29

 • 

저장 5조회 1,602

댓글 0