Paper page - Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
huggingface.co
RLHF 데이터 병목 현상을 뚫고: 더 나은 보상과 다양한 답변을 향하여
본 논문은 인간 피드백 강화 학습(RLHF)에서 데이터 스케일링의 병목 현상을 분석하고, 보상 해킹 및 응답 다양성 감소 문제를 해결하기 위한 방법을 제시합니다. 제안하는 방법은 추론 작업 검증기(RTV)와 생성적 보상 모델(GenRM)을 결합한 하이브리드 보상 시스템, 도전적인 프롬프트를 선별하는 Pre-PPO 프롬프트 선택 방법, 그리고 초기 RLHF 훈련 단계에서 수학 및 코딩 작업의 우선 순위 지정 등을 포함합니다. 실험을 통해 제안된 방법들의 효과와 확장성을 입증합니다.
https://huggingface.co/papers/2503.22230
숨겨진 연결고리를 찾아서: ReaRec의 다단계 추론 추천
본 논문은 순차적 추천을 위한 새로운 추론 시간 컴퓨팅 프레임워크 ReaRec을 제안합니다. ReaRec은 암묵적 다단계 추론을 통해 사용자 표현을 향상시키고, 특수 추론 위치 임베딩을 활용합니다. 또한 앙상블 추론 학습(ERL)과 점진적 추론 학습(PRL)이라는 두 가지 경량 학습 방법을 도입하여 ReaRec의 추론 능력을 효과적으로 활용합니다. 다양한 실제 데이터셋 실험을 통해 ReaRec의 우수성과 효율성을 입증합니다.
https://huggingface.co/papers/2503.22675
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 3월 31일 오전 5:29