커리어리 친구들, OpenAI 에서 DALL E 라는 이름으로 재미난 서비스를 또 하나 개발해 내었다고 합니다. 바로텍스트에서 이미지 만들기인데, 자연어로 표현할 수있는 다양한 개념에 대한 텍스트 캡션에서 이미지를 만드는 DALL · E라는 신경망을 훈련했습니다. 좀더 기술적으로 살펴보면, DALL E는 텍스트-이미지 쌍의 데이터 세트를 사용하여 텍스트 설명에서 이미지를 생성하도록 훈련된 GPT-3의 120 억 매개 변수(Parameter) 버전 입니다. 동물과 물체의 의인화된 버전을 만들고, 관련없는 개념을 그럴듯한 방식으로 결합하고, 텍스트를 렌더링하고, 기존 이미지에 변형을 적용하는 등 다양한 기능이 있다는 것을 발견했습니다. GPT-3은 언어를 사용하여 대규모 신경망이 다양한 텍스트 생성 작업을 수행하도록 지시 할 수 있음을 보여줬고, Image GPT는 동일한 유형의 신경망을 사용하여 충실도가 높은 이미지를 생성 할 수도 있음을 보여주었습니다. DALL E는 이러한 발견을 확장하여 이제 언어를 통해 시각적 개념을 조작 할 수 있음을 보여 줍니다. GPT-3과 마찬가지로 DALL · E는 트랜스포머 언어 모델입니다. 최대 1, 280 개의 토큰이 포함된 단일 데이터 스트림으로 텍스트와 이미지를 모두 수신하고 모든 토큰을 차례로 생성 할 수있는 최대 가능성을 사용하여 훈련됩니다. 토큰은 개별 어휘의 모든 기호입니다. 인간의 경우 각 영문자는 26 자 알파벳의 토큰입니다. DALL · E의 어휘에는 텍스트와 이미지 개념 모두에 대한 토큰이 있습니다. 특히, 각 이미지 캡션은 어휘 크기가 16,384 인 최대 256 개의 BPE 인코딩 토큰을 사용하여 표현되며 이미지는 어휘 크기가 8192 인 1024 개의 토큰을 사용하여 표현됩니다. 이미지는 훈련 중에 256x256 해상도로 사전 처리됩니다. VQVAE와 유사하게, 1415 각 이미지는 연속 완화를 사용하여 사전 학습 한 개별 VAE1011을 사용하여 개별 잠재 코드의 32x32 그리드로 압축됩니다 .1213 완화를 사용하는 학습은 명시 적 코드북, EMA 손실 또는 트릭의 필요성을 제거한다는 것을 발견했습니다. 데드 코드 리바이벌처럼 큰 어휘 크기로 확장 할 수 있습니다. 이 훈련 절차를 통해 DALL · E는 처음부터 이미지를 생성 할 수있을뿐만 아니라 텍스트 프롬프트와 일치하는 방식으로 오른쪽 하단 모서리까지 확장되는 기존 이미지의 직사각형 영역을 재생성 할 수 있다고 합니다. 참고로 DALL · E 이름은 예술가 살바도르 달리(Salvador Dalí)의 'Dali' 와 Pixar의 WALL · E의 'E'를 합쳐 사용하여 모델 이름으로 지정했다고 하니 더욱더 흥미롭네요! 인공지능에 대해 관심있는 분들은 아래의 블로그를 보시면 그림과 함께 더욱 더 이해하기가 쉽습니다.

DALL·E: Creating Images from Text

Openai

DALL·E: Creating Images from Text

2021년 1월 6일 오전 1:28

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!