[0516]모두에게 전하는 모두연 AI뉴스!
* 대규모 추론 모델의 체계적인 메타 능력 정렬 연구 대규모 추론 모델(LRM)은 긴 연쇄 사고 추론 능력을 잠재적으로 보유하고 있지만, 자기 교정, 백트래킹, 검증과 같은 고급 추론 행동의 발현 시점과 일관성은 예측 및 제어가 어려워 확장성과 신뢰성에 한계가 있습니다. 본 연구는 프롬프트나 우연한 '아하 모먼트'에 의존하는 대신, 자동으로 생성되고 자체 검증 가능한 작업을 사용하여 연역, 귀납, 귀추라는 세 가지 메타 능력에 모델을 명시적으로 정렬하는 방법을 제안합니다. 3단계 파이프라인(개별 정렬, 매개변수 공간 병합, 도메인 특화 강화 학습)을 통해 지침 조정 기준선 대비 10% 이상 성능을 향상시켰습니다. 또한 정렬된 체크포인트에서 도메인 특화 강화 학습을 수행하면 수학, 코딩, 과학 벤치마크 전반에서 기존 성능 한계치보다 평균 2% 추가 이득을 얻어, 명시적인 메타 능력 정렬이 추론을 위한 확장 가능하고 신뢰할 수 있는 기반을 제공함을 입증했습니다. https://huggingface.co/papers/2505.10554 * 메타 학습을 활용한 시스템 프롬프트 최적화 연구 대규모 언어 모델(LLM)의 성능을 극대화하는 데 있어 입력 프롬프트 최적화는 핵심적인 역할을 합니다. 기존 연구는 개별 작업에 특화된 사용자 프롬프트에 초점을 맞추었지만, 다양한 작업과 도메인에 범용적으로 적용 가능한 시스템 프롬프트 최적화는 간과되어 왔습니다. 본 연구는 다양한 사용자 프롬프트에 강인하고 새로운 작업에도 잘 일반화되는 시스템 프롬프트를 설계하는 새로운 문제인 '이중 레벨 시스템 프롬프트 최적화'를 소개합니다. 이를 해결하기 위해, 여러 데이터셋에 걸쳐 다양한 사용자 프롬프트에 대해 시스템 프롬프트를 최적화하는 동시에 사용자 프롬프트와의 시너지를 위해 반복적으로 업데이트하는 메타 학습 프레임워크를 제안합니다. 5개 도메인에 걸친 14개의 새로운 데이터셋 실험 결과, 제안된 접근 방식은 다양한 사용자 프롬프트에 효과적으로 일반화되는 시스템 프롬프트를 생성함을 보여줍니다. 또한, 최적화된 시스템 프롬프트는 테스트 시 사용자 프롬프트 최적화 단계를 줄이면서도 향상된 성능을 달성하여 새로운 작업에도 빠른 적응을 가능하게 합니다. https://huggingface.co/papers/2505.09666