Community

엔비디아의 StyleGAN과 OpenAI의 CLIP을 결합한 새로운 신경망 모델 StyleCLIP이 핫하네요. CLIP의 자연어-이미지 맵핑을 활용해서, 텍스트를 통해 소스 이미지를 변조할 수 있

엔비디아의 StyleGAN과 OpenAI의 CLIP을 결합한 새로운 신경망 모델 StyleCLIP이 핫하네요. CLIP의 자연어-이미지 맵핑을 활용해서, 텍스트를 통해 소스 이미지를 변조할 수 있습니다. 오바마 전 대통령의 사진을 넣고 '모히컨 헤어스타일'이라고 치면 모히컨 스타일의 오바마 전 대통령 사진이 만들어지는 식입니다. 내부적으로는, '모히컨 헤어스타일'이라는 텍스트의 벡터를 CLIP 텍스트 인코더로 구합니다. 그리고 모히컨 헤어스타일의 이미지를 StyleGAN으로 만들고, 이를 CLIP 사진 인코더에 넣어 벡터를 구합니다. 이 두 벡터의 코사인 유사도로 손실 함수를 정의합니다. 그러면 손실 함수를 최소회시키는 과정에서 StyleGAN의 이미지와 텍스트가 서로 매칭되는 것입니다.

알림

알림이 없습니다