Paper page - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
huggingface.co
대규모 추론 모델의 체계적인 메타 능력 정렬 연구
대규모 추론 모델(LRM)은 긴 연쇄 사고 추론 능력을 잠재적으로 보유하고 있지만, 자기 교정, 백트래킹, 검증과 같은 고급 추론 행동의 발현 시점과 일관성은 예측 및 제어가 어려워 확장성과 신뢰성에 한계가 있습니다. 본 연구는 프롬프트나 우연한 '아하 모먼트'에 의존하는 대신, 자동으로 생성되고 자체 검증 가능한 작업을 사용하여 연역, 귀납, 귀추라는 세 가지 메타 능력에 모델을 명시적으로 정렬하는 방법을 제안합니다. 3단계 파이프라인(개별 정렬, 매개변수 공간 병합, 도메인 특화 강화 학습)을 통해 지침 조정 기준선 대비 10% 이상 성능을 향상시켰습니다. 또한 정렬된 체크포인트에서 도메인 특화 강화 학습을 수행하면 수학, 코딩, 과학 벤치마크 전반에서 기존 성능 한계치보다 평균 2% 추가 이득을 얻어, 명시적인 메타 능력 정렬이 추론을 위한 확장 가능하고 신뢰할 수 있는 기반을 제공함을 입증했습니다.
https://huggingface.co/papers/2505.10554
메타 학습을 활용한 시스템 프롬프트 최적화 연구
대규모 언어 모델(LLM)의 성능을 극대화하는 데 있어 입력 프롬프트 최적화는 핵심적인 역할을 합니다. 기존 연구는 개별 작업에 특화된 사용자 프롬프트에 초점을 맞추었지만, 다양한 작업과 도메인에 범용적으로 적용 가능한 시스템 프롬프트 최적화는 간과되어 왔습니다. 본 연구는 다양한 사용자 프롬프트에 강인하고 새로운 작업에도 잘 일반화되는 시스템 프롬프트를 설계하는 새로운 문제인 '이중 레벨 시스템 프롬프트 최적화'를 소개합니다. 이를 해결하기 위해, 여러 데이터셋에 걸쳐 다양한 사용자 프롬프트에 대해 시스템 프롬프트를 최적화하는 동시에 사용자 프롬프트와의 시너지를 위해 반복적으로 업데이트하는 메타 학습 프레임워크를 제안합니다. 5개 도메인에 걸친 14개의 새로운 데이터셋 실험 결과, 제안된 접근 방식은 다양한 사용자 프롬프트에 효과적으로 일반화되는 시스템 프롬프트를 생성함을 보여줍니다. 또한, 최적화된 시스템 프롬프트는 테스트 시 사용자 프롬프트 최적화 단계를 줄이면서도 향상된 성능을 달성하여 새로운 작업에도 빠른 적응을 가능하게 합니다.
https://huggingface.co/papers/2505.09666
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 5월 16일 오전 6:55
AI(LLM) 애플리케이션의 발전 속도가 AI 지능(능력)의 발전 속도를 따라가지 못하고 있는 상태가 되었다. 즉, 이제 AI가 부족한 것이 문제가 아니라, AI의 능력을 100% 활용하지 못하고 있는 것이 문제인 상태가 되었다는 이야기.
1. 20대의 스티브 잡스가 했던 행동과 50대에 그가 보여주었던 효율적인 리더십을 혼동하면 안 된다.
1. 관리자 업무 중 상당한 부분을 차지하는 일은 인력, 돈, 자본 등의 자원을 할당하는 것이다.
외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?
... 더 보기