Paper page - AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction
huggingface.co
AnimeGamer: 언어 지시로 내가 주인공이 되는 무한 애니메이션 세상
본 논문은 사용자가 애니메이션 캐릭터가 되어 언어 지시로 상호작용하는 무한 생활 시뮬레이션 게임 시스템 'AnimeGamer'를 제안합니다. 기존 LLM 기반 방식은 정적 이미지만 생성하고 시각적 맥락을 간과하여 일관성과 동적 경험이 부족했습니다. AnimeGamer는 멀티모달 LLM을 활용하여, 이전 게임 상태(영상 포함)와 언어 지시를 바탕으로 다음 게임 상태(동적 애니메이션 영상, 캐릭터 상태 변화)를 예측합니다. 새롭게 제안된 '액션 인식 멀티모달 표현'은 비디오 확산 모델을 통해 고품질 영상으로 변환되며, 문맥적 일관성과 동적 게임 경험을 제공합니다. 평가 결과, AnimeGamer는 기존 방법보다 우수한 게임 경험을 제공하는 것으로 나타났습니다.
https://huggingface.co/papers/2504.01014
R1-Zero 비판적 분석: 강화학습(RL)만으로 추론 능력이 향상될까?
본 논문은 지도 미세 조정 없이 강화학습(RL)을 직접 적용해 LLM 추론 능력을 향상시키는 R1-Zero 방식 훈련법을 비판적으로 분석합니다. 베이스 모델과 RL 알고리즘(GRPO)을 중심으로 조사한 결과, 다수 베이스 모델(DeepSeek-V3 포함)이 RL 전에도 이미 '아하 모멘트'(자기 성찰)를 보이며, 특히 Qwen2.5 모델은 템플릿 없이도 강력한 추론 능력(사전훈련 편향 가능성)을 나타냈습니다. 또한 GRPO 알고리즘의 최적화 편향이 응답 길이를 불필요하게 증가시키는 문제를 발견하고, 이를 해결한 Dr. GRPO를 제안하여 토큰 효율성을 개선했습니다. 이를 통해 7B 모델 기준 AIME 2024에서 43.3% 정확도를 달성하는 간결한 R1-Zero 레시피를 제시합니다.
https://huggingface.co/papers/2503.20783
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 4일 오전 6:02
Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개발자로" 강의를
... 더 보기