[0110]모두에게 전하는 모두연 AI뉴스!

  • GAN 아직 죽지 않았다! R3GAN, 최신 딥러닝 기법으로 무장한 GAN 모델

본 논문은 GAN(Generative Adversarial Networks) 학습의 불안정성 문제를 해결하고 최신 딥러닝 기법을 접목하여 성능을 개선한 새로운 베이스라인 모델인 R3GAN을 제안합니다. R3GAN은 안정적인 학습을 위해 정규화된 상대주의적 손실함수 (RpGAN)를 사용하며, 수학적으로 국소 수렴성을 보장합니다. 이를 통해 기존 GAN 학습의 문제점이었던 모드 붕괴와 불수렴 문제를 해결합니다. 또한 StyleGAN2에서 사용된 경험적 트릭들을 제거하고, ResNet, U-Net, ViT 등 최신 아키텍처를 적용하여 간결하면서도 효율적인 모델을 구현했습니다. R3GAN은 FFHQ, ImageNet, CIFAR, Stacked MNIST 등 다양한 데이터셋에서 StyleGAN2를 비롯한 최신 GAN 및 확산 모델과 비교하여 우수한 성능을 보였으며, 특히 단일 단계 추론으로 이미지 생성이 가능하여 계산 효율성이 뛰어납니다. 본 연구는 GAN 모델의 안정성과 성능 향상 가능성을 제시하며, 향후 GAN 연구 발전에 기여할 것으로 기대됩니다.


https://huggingface.co/papers/2501.05441


  • 비디오의 미래를 예측하다: 자기 회귀적 사전 훈련 모델 Toto

본 연구는 비디오에 대한 자기 회귀적 사전 훈련(autoregressive pre-training)을 실증적으로 연구합니다. 이를 위해 Toto라고 불리는 일련의 자기 회귀적 비디오 모델을 구축하고, 비디오를 시각적 토큰 시퀀스로 취급하여 퓨처 토큰을 자기 회귀적으로 예측하도록 트랜스포머 모델을 훈련합니다. 1조 개 이상의 시각적 토큰으로 구성된 다양한 비디오 및 이미지 데이터 세트에서 모델을 사전 훈련하고, 아키텍처, 훈련, 추론 설계 선택 사항을 탐구합니다. 이미지 인식, 비디오 분류, 객체 추적, 로봇 공학 등 다양한 다운스트림 작업에서 학습된 시각적 표현을 평가한 결과, 최소한의 귀납적 편향에도 불구하고 자기 회귀적 사전 훈련이 모든 벤치마크에서 경쟁력 있는 성능을 보인다는 것을 확인했습니다. 또한 비디오 모델 스케일링은 언어 모델과 유사한 스케일링 곡선을 보이지만, 그 비율은 다릅니다.


https://huggingface.co/papers/2501.05453

Paper page - The GAN is dead; long live the GAN! A Modern GAN Baseline

huggingface.co

Paper page - The GAN is dead; long live the GAN! A Modern GAN Baseline

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 1월 10일 오전 8:30

댓글 0