Paper page - Learnings from Scaling Visual Tokenizers for Reconstruction and Generation
huggingface.co
ViTok: 이미지/비디오 생성, 토크나이저 스케일링으로 새로운 돌파구를 찾다!
이 논문은 이미지와 비디오 생성 모델에서 중요한 역할을 하는 시각적 토크나이저(visual tokenizer)의 스케일링 효과를 연구합니다. 연구진은 기존의 CNN 기반 구조 대신 Vision Transformer 기반의 'ViTok'을 제안하고, ImageNet-1K를 넘어서는 대규모 데이터셋으로 실험을 진행했습니다. 연구 결과, 토크나이저의 병목현상(bottleneck)을 확장하면 재구성(reconstruction) 성능은 향상되지만 생성(generation) 성능과는 더 복잡한 관계가 있음을 발견했습니다. 또한 인코더 스케일링은 성능 향상에 거의 도움이 되지 않았으며, 디코더 스케일링은 재구성 성능은 향상시켰지만 생성 성능에는 제한적인 효과만 있었습니다. ViTok은 기존 최고 성능의 모델들과 비교해 2-5배 적은 연산량으로 경쟁력 있는 성능을 달성했으며, 특히 UCF-101 데이터셋에서 비디오 생성 분야의 새로운 최고 성능을 기록했습니다.
https://huggingface.co/papers/2501.09755
디퓨전 모델, 추론 시간 스케일링으로 성능 UP! 계산량 조절로 최적화 달성
디퓨전 모델에서 추론 시간 스케일링에 대한 프레임워크가 제시되었으며, 검색을 통해 계산을 스케일링하면 다양한 모델 크기와 생성 작업에서 성능이 크게 향상될 수 있고, 추론 시간 계산 예산에 따라 스케일링 동작이 달라질 수 있음을 보여줍니다. 검색 프레임워크에서 검증기와 알고리즘을 두 가지 중요한 설계 축으로 식별하여 최적 구성이 작업별로 다르며 보편적인 솔루션이 없음을 보여줍니다. 또한 서로 다른 검증기와 생성 작업 간의 정렬에 대한 조사를 통해 고유한 편향을 밝혀내고 특정 비전 생성 작업에 맞게 보다 신중하게 설계된 검증기의 필요성을 강조합니다.
https://huggingface.co/papers/2501.09732
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 1월 17일 오전 11:13
1. 오랜만에 만난 사람은 늘 어색하다. 뭔가 말을 건네야 한다. 인사 없이 지나가긴 애매하다. 하지만 대화 주제는 많지 않다. 날씨, 뉴스 얘기 몇 마디는 어떻게 해본다. 하지만 가장 어려운 건 마무리다.
P