Jonas Kim

데이터 과학자, ML 엔지니어

Paper Review 4 - DiT: Scalable Diffusion

DiT(Diffusion Transformer)는 2022년 Meta에서 발표한 논문(https://arxiv.org/abs/2212.09748)으로, 최근 OpenAI의 비디오 생성 모델인 Sora에 큰 영향을 미친 것으로 알려져 다시금 주목받았다. OpenAI의 전략은 대형언어모델부터 음성인식까지 다양한 AI 분야에 걸쳐 일관되게 나타나는데, 그것은 바로 "귀납적 편향이 적은 모델(즉, 트랜스포머)에 방대한 데이터와 연산 자원을 투입하면 획기적인 성능 향상을 이룰 수 있다"는 것이다. 이러한 맥락에서 기존 디퓨전 모델의 컨볼루션 기반 U-Net을 트랜스포머로 대체하려고 한 DiT 논문이 Sora의 주요 참고 자료가 된 것은 그다지 놀랍지 않다.

DiT 아키텍처는 그 이름에서 알 수 있듯이 디퓨전 모델 중 가장 널리 사용되는 DDPM 구조에 ViT(Vision Transformer)와 유사한 방식을 적용한 것이다. 2020년에 발표된 ViT 논문은 2차원인 이미지를 분류하는 모델에 1차원 시퀀스를 처리하는 트랜스포머를 접목하기 위해 각 이미지를 조각조각 나눠 입력으로 사용했다. 이와 같은 맥락에서 DiT는 이미지(정확히는 이미지의 잠재적 표현)를 패치로 분할하고 선형으로 정렬하여 토큰 시퀀스로 변환한다. 이렇게 생성된 토큰 시퀀스에 위치 임베딩을 적용하여 최종적인 모델 입력을 만든다. 이 외에도 이미지 생성을 위한 조건인 레이블과 타임스탬프 정보를 추가적인 입력 값으로 사용할 것이다.

DiT 블록은 U-Net을 대체하는 역할을 하며, 트랜스포머의 표준적인 구성을 차용했다. 다만, 레이블과 타임스탬프 정보를 적절히 반영하기 위해 저자들은 4가지 대안을 고려하고 실험을 진행했다.

첫번째 안은 레이블과 타임스탬프의 벡터 임베딩을 이미지 입력 시퀀스의 끝에 단순히 추가하는 형태로, ViT의 CLS 토큰과 유사하다. 마지막 블록을 통과한 후에는 해당 조건부 토큰을 시퀀스에서 제거한다.

두번째 안은 레이블 및 타임스탬프 임베딩 벡터를 병합한 다음, 멀티 헤드 크로스 어텐션 레이어를 통해 이미지 정보와 융합하는 것이다. 이 접근 방식은 LDM, 즉 스테이블 디퓨전의 접근 방식과 유사하며, 연산량 측면에서 가장 큰 오버헤드를 가져온다.

세번째 안(adaLN)은 레이어 정규화 시 차원 별 스케일링 및 시프트 파라미터를 학습하는 대신, 레이블과 타임스탬프 임베딩 합계의 회귀 값을 적용하여 해당 정보를 반영하게 한다. 이 방식은 연산량 측면에서 오버헤드가 가장 적다.

네번째 안(adaLN-Zero)은 adaLN에 더하여 DiT 블록 내 잔차 연결 직전에 적용되는 차원 별 스케일링 파라미터에 해당 회귀 값을 사용한다.

저자들은 실험을 통해 네번째 안인 adaLN-Zero 전략이 가장 우수한 성능을 보인다는 사실을 밝혀냈다.

마지막으로 최종 DiT 블록의 출력 토큰 시퀀스를 레이어 정규화(또는 adaLN)한 다음, 노이즈 및 공분산 예측(대각 행렬)을 통해 디코딩한다. 이는 선형의 토큰 시퀀스를 원래 입력과 동일한 공간적 레이아웃으로 재정렬하는 것을 의미한다.

DiT 논문은 이와 같이 이미지 생성을 위한 새로운 아키텍처를 제안했다. 이 아키텍처는 연산량이 증가할수록, 즉 트랜스포머 모델의 크기가 커지고 이미지 패치를 더 세밀하게 분할할수록 성능이 지속적으로 향상되는 특징을 보인다. 또, 대형 모델일수록 계산 효율성 측면에서도 더 우수한 결과를 나타낸다. 이러한 특성들은 DiT가 현재의 디퓨전 모델 구조를 뛰어넘는 차세대 이미지 및 비디오 생성 기술로 발전할 가능성을 암시한다.

#Diffusion #Transformer

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 6월 9일 오전 11:31

저장 2 • 조회 1,645

함께 읽은 게시물

기묘한

트렌드라이트 발행인

5일 전

📺'뤼튼'의 이상한 광고, 만든 사람에게 직접 의도를 들어봤습니다

이

“이래도 되나?” – 뤼튼의 이상한 광고 만들기 – 제일 매거진

magazine.cheil.com

저장 4 • 조회 508

장홍석

스페이스오디티 부대표/CPO

2일 전

< 가장 위대한 창작은 ‘경계’에서 탄생한다 >

1. 세상에 없던 새로운 건 모두 한 사람의 상상에서 시작된다. 그 결과인 창작물은 크게 두 가지로 나뉜다.

댓글 1 • 저장 2 • 조회 581

장홍석

스페이스오디티 부대표/CPO

하루 전

< ‘나다움’을 잃는 순간, 모든 것을 잃는다 >

1. 당신 자신을 믿어라. 결코 모방하지 마라. 매 순간 자기 재주를 내보여라. 평생에 걸쳐 쌓아온 누적된 힘을 보여줘라.

댓글 1 • 저장 2 • 조회 417

강재상

스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

하루 전

회사 때려치고 사업이나 한번 해볼까?

회

[B라운지] (직장인 이후의 삶을 위한) 사업 아이디어 선명하게 다듬기 : PBR

www.pbr.kr

•

저장 14 • 조회 766

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

하루 전

미 육군 리더십센터는 리더십, 조직심리학, 인지과학 분야에서 세계 유수 연구기관과 어깨를 나란히 하는 곳이다. 특히 불확실한 상황하에서의 의사결정, 위기 관리 분야를 선도하고 있다. 미 육군 리더십센터의 연구성과 중에서 주목할 만한 것은 ‘독성 리더십(Toxic Leadership)’에 관한 것이다.

`독성 리더십`은 어떤 것? 미군 내부조사 결과 보니 - 매일경제

매일경제

저장 1 • 조회 346

SNEW 스뉴

start-up, VC and more

2일 전

미들캡 딜 가격에도 영향을 미치고 있다. 준오헤어의 초기 매각가는 5000억원대로 거론됐다가 현재 8000억원대로 치솟았다. 블랙스톤 KKR 칼라일 등 글로벌 대형 PEF들이 관심을 보이면서 몸값이 올랐다는 게 업계의 후문이다. 한 IB 업계 관계자는 “글로벌 PEF들이 과거에는 조 단위 이상 대형 딜에만 집중했지만 최근에는 투자집행이 중요한 만큼 1조원 안팎의 거래라도 성장성이나 시너지가 있다고 판단되면 적극적으로 들여다보는 분위기”라고 전했다.

글로벌 PEF의 미들캡 공습…설 자리 좁아지는 토종 PEF

n.news.naver.com

조회 368

비슷한 게시물

골빈해커 Chief Maker

OpenAI가 동영상 생성 모델인 Sora를 서비스로 오픈했습니다. 요즘 동영상 생성 서비스가 많이 나오고 또 성능이 매우 좋아져서 당장 아주 특별히 좋은가? 라는 느낌이 크게 오

강병진 GS 52g Studio 개발자

OpenAI의 DeepSearch는 DeepSeek보다 뛰어날까?

닥터G UX 디자이너 & 리서처

7월 넷째주 IT News

골빈해커 Chief Maker

KWAI에서 발표한 동영상 생성 모델 KLING이 OpenAI의 Sora의 성능에 준하거나 뛰어넘는 성능으로 사람들에게 놀라움을 주고 있는데요.

골빈해커 Chief Maker

🗞️ Anthropic, AI(LLM)의 내부 작동 해석에 성공했다고!

골빈해커 Chief Maker

🗞️ OpenAI의 차세대 시스템인 Q*(큐-스타)에 대한 추가 정보

주간 인기 TOP 10

권태관 NAVER 소프트웨어 엔지니어

6년간의 토이프로젝트 여정을 마무리하며 - 기술블로그 구독서비스

psmon 웹노리라이터

DDD와 AI

Arawn Park Senior Engineer & Engineering Lead

올해로 개발자 생활이 햇수로 20년째다

유용우(요우) NAVER 백엔드 개발자

간만에 재밌게 읽은 기술 포스트 여름 이벤트 관련 개발 회고와 높

이원형 라인플러스 소프트웨어 엔지니어

고용노동부에서 주관하는 청년미래플러스 3기를 모집 중이라고 합니다

장홍석 스페이스오디티 부대표/CPO

< 가장 예쁜 사람이 아니라, 1등 할 사람에게 투표하라 >

골빈해커 Chief Maker

아직 나도 정립되지 않은 상태이긴한데, 실무에서의 바이브 코딩은

석민 커리어 코치

길은 잃은 이력서

SNEW 스뉴 start-up, VC and more

“실리콘밸리의 힘은 개인의 자율과 책임을 극대화한 것에 있다. 이

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

데이터 이력서 템플릿 + 작성 가이드를 사용해보세요.

Paper Review 4 - DiT: Scalable Diffusion

댓글 0

함께 읽은 게시물

📺'뤼튼'의 이상한 광고, 만든 사람에게 직접 의도를 들어봤습니다

< 가장 위대한 창작은 ‘경계’에서 탄생한다 >

< ‘나다움’을 잃는 순간, 모든 것을 잃는다 >

회사 때려치고 사업이나 한번 해볼까?

비슷한 게시물

주간 인기 TOP 10

추천 프로필