[0605] 모두에게 전하는 모두연 AI뉴스!

LLM이 결과를 성찰하여 성장하도록 하는 기법, Reflect, Retry, Reward

Writer, Inc. 에서 대규모 언어 모델(LLM)의 자가 개선 능력을 강화하는 혁신적인 방법론, "Reflect, Retry, Reward" 를 소개하였습니다. 이 프레임워크는 모델이 특정 과제에 실패했을 때, 스스로 '자기 성찰'을 생성하여 실패 원인을 분석하게 합니다. 이후 모델은 이 자기 성찰을 바탕으로 재시도하며, 두 번째 시도에서 성공할 경우, 생성된 자기 성찰 토큰에 강화 학습(Group Relative Policy Optimization, GRPO)을 사용하여 보상을 줍니다. 이 과정의 핵심은 특정 작업을 위한 최적화가 아닌, 모델의 자기 성찰 능력 자체를 향상시키는 데 집중하는 것입니다. 기법을 적용한 결과, 수학 방정식 작성에서 최대 34.7%, 함수 호출에서 18.1%의 성능 향상을 보였으며, 1.5억에서 70억 개의 매개변수를 가진 작은 미세 조정 모델들이 동일 계열의 10배 더 큰 모델들보다 뛰어난 성능을 발휘했습니다 (예: Qwen-2-7B (훈련됨) 모델이 Qwen2-72B (훈련되지 않음) 모델을 능가). 또한, 자기 성찰 훈련 후에도 MMLU-Pro, GSM8K 등 다양한 일반 LLM 벤치마크에서 안정적인 성능을 유지하여 재앙적 망각(Catastrophic Forgetting)이 낮음을 입증했습니다. 훈련된 모델은 더 짧고, 명확하며, 일반화 가능한 자기 성찰을 생성하며, 전반적인 추론 능력 향상으로 첫 시도에서도 더 나은 성능을 보이게 합니다. 이러한 접근법은 제한된 외부 피드백(성공/실패 이진 신호)만으로도 LLM이 복잡하고 검증 가능한 작업을 스스로 개선할 수 있는 유망한 길을 제시하며, 더욱 유용하고 신뢰할 수 있는 언어 모델을 만드는 데 기여합니다.

https://arxiv.org/pdf/2505.24726

텍스트 기반 이미지 편집을 쉽게, Image Editing As Programs (IEAP)

기존 확산 모델들은 이미지 레이아웃을 크게 변경해야 하는 '구조적 불일치 편집'에서 특히 어려움을 겪는다는 점이 주요 과제로 지적되어 왔습니다. 이러한 한계를 극복하기 위해 ByteDance와 대학 공동 연구진이 Diffusion Transformer(DiT) 아키텍처를 기반으로 하며, 이미지를 '프로그램'처럼 편집하는 새로운 통합 프레임워크, IEAP를 제안하였습니다. IEAP의 핵심은 복잡한 편집 지시를 '원자적 연산(atomic operations)'이라는 작은 단위의 연속적인 프로그램으로 분해하는 접근 방식입니다. 이 원자적 연산은 다섯 가지로 구성됩니다: 관심 영역(RoI) 식별 (localization), RoI 채우기 (inpainting), RoI 편집 (editing), RoI 합성 (compositing), 그리고 전역 변환 (global transformation). CoT(Chain-of-Thought) 추론 방식을 활용하여, VLM(Vision-Language Model) 기반 에이전트가 이러한 각 연산을 순차적으로 실행함으로써 복잡한 명령을 처리합니다. 이러한 모듈화 및 순차적 편집 방식 덕분에 IEAP는 단순한 조정부터 상당한 구조적 변화에 이르는 광범위한 편집 작업에서 강력한 일반화 능력을 보여줍니다. 광범위한 실험 결과, IEAP는 기존의 최첨단 방법론들을 크게 능가하는 성능을 입증했습니다. 특히, 복잡하고 다단계적인 지시사항과 구조적 불일치 편집에서 뛰어난 정확도와 의미론적 충실도를 보여주며, 이미지 편집 분야에 새로운 가능성을 제시하고 있습니다. IEAP는 여러 경쟁 모델들(InstructPix2Pix, MagicBrush, UltraEdit, ICEdit, SeedEdit, Gemini 2.0 Flash, GPT-4o)과 비교했을 때, 복잡한 지시사항에서도 동등하거나 더 나은 편집 완성도와 사전-사후 일관성을 달성했습니다. 이는 IEAP의 모듈식이고 해석 가능한 접근 방식이 디지털 콘텐츠 생성, 광고, 교육 등 다양한 창의적 및 기술 분야에 상당한 이점을 제공할 잠재력이 있음을 의미합니다.

https://github.com/YujiaHu1109/IEAP

AI 전문가로 가는 최적의 여정, 인공지능학교 아이펠 14기 모집중 : https://aiffel.io/

다음 내용이 궁금하다면?

이미 회원이신가요?

2025년 6월 5일 오전 6:57

비슷한 게시물

주간 인기 TOP 10

골빈해커 Chief Maker

요 며칠 GPT-5 Reasoning - High 를 사용해서 진

K리그 프로그래머 커피한잔 개발자

내가 가본 우리나라

석민 커리어 코치

확신은 어디에서 오는가?

김선호 여기어때컴퍼니 / User Behavior Team Lead

매우 공감하는 글. 좀 더 첨언해보자면, - 문제가 뭔지 정의하

장홍석 스페이스오디티 부대표/CPO

< 모른다고 말하는 순간, 뇌도 멈춘다 >

Arawn Park Senior Engineer & Engineering Lead

JSpecify로 끝내는 NPE 전쟁

마케터 초인(윤진호) 초인 마케팅랩 LEADER

타인의 평가자가 되어 삶을 허비하지 않기로 하였다

달레 Apollo GraphQL Software Engineer

재미있는 함수에 대해 배워볼까요! 😄

김현청 | Hyuncheong KIM 블루에이지 회장 | 서울리더스클럽회장 | (사)도서관산업협회 회장

일과 사랑, 그리고 인생을 위한 명언 1697개

서지연 개발자

📰 개발자로서 읽어야 할 책 8권 ✍️ dev.to에 올라온

[0605] 모두에게 전하는 모두연 AI뉴스!

댓글 0

비슷한 게시물

주간 인기 TOP 10

추천 프로필