Paper page - Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs
huggingface.co
LLM 사실성 혁명, Mask-DPO의 등장
이 논문에서는 대규모 언어 모델(LLM)의 사실성을 향상시키는 Mask-DPO라는 새로운 방법을 제안합니다. Mask-DPO는 문장 수준의 사실성 정보를 활용하여 기존 방법의 모호성을 줄입니다. 이를 통해 LLM은 도메인 내외 데이터 세트에서 사실에 더욱 정확하게 응답할 수 있습니다. 예를 들어, Llama3.1-8B-Instruct 모델의 경우 ANAH 테스트 세트에서 점수가 49.19%에서 77.53%로 향상되었으며, Llama3.1-70B-Instruct 모델의 점수(53.44%)를 능가했습니다. 또한, Biography 데이터 세트에서도 FactScore가 30.29%에서 39.39%로 향상되었습니다.
https://huggingface.co/papers/2503.02846
LLM 에이전트, MPO를 만나다: 플래닝의 혁신
이 논문에서는 대규모 언어 모델(LLM) 기반 에이전트의 계획 기능을 강화하기 위한 메타 계획 최적화(MPO) 프레임워크를 제안합니다. MPO는 메타 계획을 통해 명시적 지침을 활용하여 에이전트 계획을 지원하고, 에이전트의 작업 실행으로부터 피드백을 통해 메타 계획을 지속적으로 최적화합니다. 두 가지 대표적인 작업에 대한 실험 결과, MPO는 기존 방법보다 성능이 뛰어나고 작업 완료 효율성과 일반화 기능을 향상시키는 것으로 나타났습니다. 특히, 이전에 보지 못했던 시나리오에서도 MPO가 효과적으로 작동함을 보여줍니다.
https://huggingface.co/papers/2503.02682
아이펠 온라인13기 3월 개강 모집중 : https://bit.ly/4jzwrSS
데이터와 AI로 미래를 예측하는 데이터 사이언티스트 4기 모집 : https://bit.ly/3WJ4C0A
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 3월 5일 오전 9:43
이
... 더 보기