서진호

sr. Presales Solution Architect, HPC&AI

커리어리 친구들, OpenAI 에서 DALL E 라는 이름으로 재미난 서비스를 또 하나 개발해 내었다고 합니다. 바로텍스트에서 이미지 만들기인데, 자연어로 표현할 수있는 다양한 개념에 대한 텍스트 캡션에서 이미지를 만드는 DALL · E라는 신경망을 훈련했습니다. 좀더 기술적으로 살펴보면, DALL E는 텍스트-이미지 쌍의 데이터 세트를 사용하여 텍스트 설명에서 이미지를 생성하도록 훈련된 GPT-3의 120 억 매개 변수(Parameter) 버전 입니다. 동물과 물체의 의인화된 버전을 만들고, 관련없는 개념을 그럴듯한 방식으로 결합하고, 텍스트를 렌더링하고, 기존 이미지에 변형을 적용하는 등 다양한 기능이 있다는 것을 발견했습니다. GPT-3은 언어를 사용하여 대규모 신경망이 다양한 텍스트 생성 작업을 수행하도록 지시 할 수 있음을 보여줬고, Image GPT는 동일한 유형의 신경망을 사용하여 충실도가 높은 이미지를 생성 할 수도 있음을 보여주었습니다. DALL E는 이러한 발견을 확장하여 이제 언어를 통해 시각적 개념을 조작 할 수 있음을 보여 줍니다. GPT-3과 마찬가지로 DALL · E는 트랜스포머 언어 모델입니다. 최대 1, 280 개의 토큰이 포함된 단일 데이터 스트림으로 텍스트와 이미지를 모두 수신하고 모든 토큰을 차례로 생성 할 수있는 최대 가능성을 사용하여 훈련됩니다. 토큰은 개별 어휘의 모든 기호입니다. 인간의 경우 각 영문자는 26 자 알파벳의 토큰입니다. DALL · E의 어휘에는 텍스트와 이미지 개념 모두에 대한 토큰이 있습니다. 특히, 각 이미지 캡션은 어휘 크기가 16,384 인 최대 256 개의 BPE 인코딩 토큰을 사용하여 표현되며 이미지는 어휘 크기가 8192 인 1024 개의 토큰을 사용하여 표현됩니다. 이미지는 훈련 중에 256x256 해상도로 사전 처리됩니다. VQVAE와 유사하게, 1415 각 이미지는 연속 완화를 사용하여 사전 학습 한 개별 VAE1011을 사용하여 개별 잠재 코드의 32x32 그리드로 압축됩니다 .1213 완화를 사용하는 학습은 명시 적 코드북, EMA 손실 또는 트릭의 필요성을 제거한다는 것을 발견했습니다. 데드 코드 리바이벌처럼 큰 어휘 크기로 확장 할 수 있습니다. 이 훈련 절차를 통해 DALL · E는 처음부터 이미지를 생성 할 수있을뿐만 아니라 텍스트 프롬프트와 일치하는 방식으로 오른쪽 하단 모서리까지 확장되는 기존 이미지의 직사각형 영역을 재생성 할 수 있다고 합니다. 참고로 DALL · E 이름은 예술가 살바도르 달리(Salvador Dalí)의 'Dali' 와 Pixar의 WALL · E의 'E'를 합쳐 사용하여 모델 이름으로 지정했다고 하니 더욱더 흥미롭네요! 인공지능에 대해 관심있는 분들은 아래의 블로그를 보시면 그림과 함께 더욱 더 이해하기가 쉽습니다.

DALL·E: Creating Images from Text

openai.com

다음 내용이 궁금하다면?

이미 회원이신가요?

2021년 1월 6일 오전 1:28

저장 15 • 조회 1,720

함께 읽은 게시물

골빈해커

Chief Maker

3일 전

DB 프로시저 싫어하시는 분들 많으시죠? Lambda/Serverless Function 이라고 생각해보십시오! 사실상 Serverless Function이랑 똑같은 것. Serverless Function도 싫어하시면 린정.

조회 2,055

장홍석

스페이스오디티 부대표/CPO

3일 전

< 쿠팡의 창업자를 직접 보며 배운 것: 리더의 크기가 전부다 >

•

댓글 1 • 저장 11 • 조회 1,237

골빈해커

Chief Maker

2일 전

🎙️NotebookLM 해설 - 진격의 AI, 개발자는 자멸할까?

- YouTube

youtu.be

댓글 1 • 저장 3 • 조회 2,113

엄지현

Amazon Software Engineer

2022년 09월 28일

<👩🏻‍💻 신규 개발자가 입사 첫 달에 해야 할 7가지>

어느 환경에서든 첫인상은 중요합니다. 첫인상으로 인해 생긴 이미지는 추후에 쉽게 바뀌지 않는데요, 회사에서도 예외는 아닙니다. 입사 초기에 보이는 모습에 따라 ‘실력자’라는 인상을 줄 수도, ‘일 못하는 사람’으로 낙인찍힐 수도 있죠. 입사 첫 달은 이러한 첫인상을 결정짓는 중요한 시기입니다. 더 나아가서는 이 시기가 앞으로 이 회사에서의 성공을 좌우할 수도 있어요. 신규 개발자가 새 직장에서 첫 시작을 잘 끊기 위해서 해야 할 7가지 일을 선정해 보았습니다! 1️⃣ 상사의 기대치 파악하기 입사 초반에는 ... 더 보기

신규 개발자가 입사 첫 달에 해야 할 7가지

Brunch Story

•

댓글 5 • 저장 621 • 조회 18,140

K리그 프로그래머

커피한잔 개발자

5월 21일

작은 성공의 기쁨

목

작은 성공의 기쁨

K리그 프로그래머

저장 2 • 조회 2,218

골빈해커

Chief Maker

2일 전

여러분 PostgreSQL 프로시저는 Python, JavaScript은 물론 Perl, Java, Lua 등도 사용할 수 있답니다~* 대부분 구식🤭 MySQL만 쓰셔서 모르시겠지만.. (도망간다)

댓글 2 • 조회 1,989

주간 인기 TOP 10

달레 Apollo GraphQL Software Engineer

🎯 유튜브에 100번째 코딩 테스트 문제 풀이 영상을 올렸습니다!

김하림 우아한형제들 프론트엔드 개발자

타입 안전한 API 모킹으로 프론트엔드 생산성 높이기

Arawn Park Senior Engineer & Engineering Lead

나는 시스템 빌더이다

석민 커리어 코치

이직의 조건

골빈해커 Chief Maker

어제 출시된 따끈따끈한 ChatGPT Codex를 실제 프로젝트

동크루트 AI 엔지니어, SW 엔지니어

샘 알트만: "지금 당신이 o3보다 더 똑똑하다고 생각하세요?"

장홍석 스페이스오디티 부대표/CPO

< '네이버 다녀요'라는 말에 아무도 무슨 일을 하는지는 묻지 않

장홍석 스페이스오디티 부대표/CPO

< 초동 100만 장, 그런데 팬은 어디 있죠? - 엔터 테크와

송요창 배민 프론트엔드 프로그래머

ChatGPT 버전명 설명

레드버스백맨 리서처 앤 라이터

⟪디자인의 역할은 프로세스에서 낭비를 줄이고 생산성을 개선하는 것

댓글 0

함께 읽은 게시물

< 쿠팡의 창업자를 직접 보며 배운 것: 리더의 크기가 전부다 >

🎙️NotebookLM 해설 - 진격의 AI, 개발자는 자멸할까?

<👩🏻‍💻 신규 개발자가 입사 첫 달에 해야 할 7가지>

작은 성공의 기쁨

주간 인기 TOP 10

추천 프로필