[0811] 모두에게 전하는 모두연 AI뉴스!

  • 휴먼 데이터 사용 없이 스스로 과제 만들며 성장하는 LLM ‘R-Zero’

텐센트 AI 시애틀 랩과 미 대학 연구진이 8월 7일 공개한 ‘R-Zero’는 외부 라벨·문제 없이 스스로 문제를 만들고 풀며 추론 능력을 키우는 자율 진화 프레임워크입니다. 하나의 베이스 LLM을 Challenger/Solver로 분기해 GRPO로 동시 최적화하고, 불확실성 보상으로 애매한 문제 생성을 유도합니다. 중복을 줄이는 군집화 패널티와 난이도·정답성 일관성 필터로 데이터 품질을 관리합니다. 루프마다 수천 문제를 생성·해결해 자동으로 학습세트를 축적합니다. 실험 결과, 연구자들은 반복적인 성능 상승을 관찰하였으며, 특히 Qwen3-8B-Base의 수학 벤치마크에서 5포인트 성능 개선 및, MMLU-Pro·SuperGPQA 등의 일반 영역으로의 지식 전이를 확인했습니다. 또한, R-Zero로 훈련 후 Suoervised fine tuning을 통한2.35포인트의 성능 추가상승을 확인했습니다. 연구진은 “정답 판정이 객관적인 과제에서 특히 효과적”이라며, 주관적 생성 과제로의 확장을 다음 과제로 제시했습니다.


https://github.com/Chengsong-Huang/R-Zero


  • 단일 디퓨전 트랜스포머로 ‘입히기/벗기기’ 모두 해결하는 가상 피팅 모델 ‘Voost’

NXN Labs 연구진이 8월 6일 공개한 ‘Voost’는 가상 착장(try-on)과 탈의(try-off)를 하나의 Diffusion Transformer로 공동 학습하는 통합 프레임워크입니다. 동일한 의복-인물 쌍이 양방향을 서로 감독하도록 설계해, 생성 방향, 즉 옷 입히기/벗기기와 의상 카테고리를 유연하게 조건화하면서도 별도 특화 네트워크·보조 손실·추가 라벨 없이 의복-신체 대응 추론을 강화합니다. 추론 단계에서는 해상도·마스크 변화에 강한 어텐션 온도 스케일링과, 양방향 일관성을 활용한 자기-보정 샘플링을 도입했습니다. 저자들은 VITON-HD·DressCode 등 벤치마크와 인더와일드 이미지에서 정렬 정확도·시각 품질·일반화 지표 전반의 최신 성능(SOTA)을 보고했으며, 코드와 공개 데모를 예고했습니다.


https://nxnai.github.io/Voost/


실무 중심 AI 전문가 양성 과정 AI학교 아이펠 15기 :  http://bit.ly/4oqDP5H 

GitHub - Chengsong-Huang/R-Zero: codes for R-Zero: Self-Evolving Reasoning LLM from Zero Data (https://www.arxiv.org/pdf/2508.05004)

GitHub

GitHub - Chengsong-Huang/R-Zero: codes for R-Zero: Self-Evolving Reasoning LLM from Zero Data (https://www.arxiv.org/pdf/2508.05004)

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 8월 11일 오전 6:50

댓글 0