생성형 AI 가속화하기 3편: 디퓨전, 더 빠르게
TL;DR ❓ 기본 파이토치 최적화로 T2I 디퓨전 모델 추론 최대 3배 향상하는 법? 1️⃣ bfloat16 정밀도로 실행 2️⃣ 어텐션 계산에 SDPA 사용 3️⃣ max-autotune 및 fullgraph 옵션으로 UNet 및 VAE 컴파일하기 4️⃣ 그외: 컴파일 후 CPU와 GPU 간의 동기화 제거, 어텐션 계산을 위해 쿼리, 키, 밸류 프로젝션 행렬을 수평 결합, torchao 라이브러리로 일부 선형 레이어에 대한 동적 INT8 양자화 적용 코드 리포지토리: https://github.com/huggingface/diffusion-fast