Paper page - Demystifying Long Chain-of-Thought Reasoning in LLMs
huggingface.co
생각의 흐름을 길게! LLM 추론 최적화 전략
추론 컴퓨팅 확장은 LLM의 긴 생각의 사슬(CoT) 생성과 오류 수정 능력을 강화하지만, 최적화 조건은 불분명합니다. 연구에 따르면, SFT는 필수는 아니지만 훈련을 단순화하고 효율성을 높이며, CoT 길이의 안정화를 위해 보상 형성이 중요합니다. 또한, 검증 가능한 보상 신호가 RL 성능 향상에 필수적이며, 필터링된 웹 데이터가 STEM 추론에 효과적입니다. 오류 수정 능력은 기본적으로 존재하지만, RL을 통한 강화에는 높은 컴퓨팅 자원이 필요합니다. 본 연구는 긴 CoT 추론을 최적화하기 위한 실용적인 전략을 제시합니다.
https://huggingface.co/papers/2502.03373
DAA vs. DPO: 더 간단한 언어 모델 정렬, 가능할까?
직접 정렬 알고리즘(DAA)은 강화 학습(RL)과 보상 모델링(RM)을 직접 정책 최적화로 대체하여 LLM 정렬을 간소화하는 방법입니다. 연구 결과, 1단계 방식이 2단계 방식보다 성능이 낮았으며, 이를 보완하기 위해 명시적인 SFT 단계와 선호도 최적화 강도를 조절하는 베타 파라미터를 추가한 ORPO와 ASFT를 제안했습니다. 이러한 개선을 통해 ORPO와 ASFT의 성능이 각각 +3.46 및 +8.27 향상되어 2단계 방식인 DPO와 유사한 성능을 보였습니다. 추가 분석 결과, 성능 차이는 특정 손실 함수보다 쌍별 최적화와 포인트별 최적화 방식에 의해 결정된다는 점이 밝혀졌습니다. 따라서 정렬 알고리즘의 성능을 비교할 때 성급한 결론을 내리기보다 신중한 평가가 필요함을 강조합니다. 이번 연구는 LLM 정렬을 더욱 간결하고 효과적으로 최적화하는 데 중요한 인사이트를 제공합니다.
https://huggingface.co/papers/2502.01237
2017년부터 명맥을 이어온 AI명문
아이펠리서치 온라인13기 사전등록 : https://bit.ly/4jzwrSS
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 2월 6일 오전 6:34