Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step
arXiv.org
시각을 통한 사고: CoT로 이미지 생성의 새 지평을 열다
이 논문은 Chain-of-Thought (CoT) 추론 전략을 이미지 생성에 적용하는 최초의 연구를 제시합니다. 연구진은 테스트 시간 검증, 선호도 정렬, 그리고 이 두 기법의 통합이라는 세 가지 주요 기술을 조사했습니다. 특히 자동회귀 이미지 생성을 위해 특화된 새로운 보상 모델인 PARM(Potential Assessment Reward Model)과 PARM++을 제안했는데, 이는 단계별로 생성 과정을 평가하고 자가 수정 메커니즘을 포함합니다. 이 접근법을 Show-o 기준 모델에 적용한 결과, GenEval 벤치마크에서 24%의 성능 향상을 달성했으며, 이는 Stable Diffusion 3를 15% 상회하는 결과입니다. 이 연구는 CoT 추론과 자동회귀 이미지 생성을 통합하는 새로운 방향을 제시했습니다.
https://arxiv.org/abs/2501.13926
적응형 엔트로피로 여는 멀티모달의 새 시대
이 논문은 멀티 모달 개방형 테스트 시간 적응(MM-OSTTA)이라는 새로운 과제를 다룹니다. 연구진은 적응형 엔트로피 인식 최적화(AEO)라는 프레임워크를 제안하여, 알려진 클래스와 알려지지 않은 클래스 샘플 간의 엔트로피 차이를 증폭시키는 것을 목표로 합니다. AEO는 알려지지 않은 클래스 인식 능력을 향상시키는 UAE(Unknown-aware Adaptive Entropy Optimization)와 모달리티 간 예측 불일치를 적응적으로 조정하는 AMP(Adaptive Modality Prediction Discrepancy Optimization)로 구성됩니다. 실험 결과 AEO는 GenEval 벤치마크에서 기준 모델 대비 24% 향상된 성능을 보여주었고, 장기 및 연속적인 적응 시나리오에서도 강건한 성능을 입증했습니다.
https://arxiv.org/abs/2501.13924
AI학교 아이펠 퍼실의 NeurIPS 2024 논문 소개 방송
https://modulabs.co.kr/community/momos/14
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 1월 24일 오전 6:13
개
... 더 보기진
... 더 보기