LLM 판단, 인간 평가와 142% 이상 일치! 자동 심사 시대 열리나?
대규모 언어 모델(LLM)은 추천 시스템, 검색 엔진 및 기타 주관적인 작업을 평가하기 위한 자동화된 심사자로 점점 더 많이 사용되고 있습니다. LLM은 연속적이고 자동화된 평가를 위한 효율적인 솔루션을 제공합니다. 그러나 이러한 판단을 통해 구축되고 개선되는 시스템은 궁극적으로 인간이 사용하도록 설계되었기 때문에 LLM 판단이 인간 평가자와 밀접하게 일치하여 시스템이 인간 중심으로 유지되도록 하는 것이 중요합니다. 이 연구에서는 LLM을 재교육하거나 미세 조정하지 않고도 LLM 판단을 개별 인간 평가자 또는 집계된 판단과 일치시키는 간단하면서도 효과적인 프레임워크를 제안합니다. 이 접근 방식은 LLM의 출력과 인간 판단 간의 선형 매핑을 학습하여 소수의 보정 예제만 사용하여 29개 작업에서 평균 142% 이상의 일치도를 달성합니다. 이 방법은 제로샷 및 퓨샷 설정에서 작동하며 6개 작업 중 4개 작업에서 인간 간 일치도를 능가하며 더 작은 LLM이 더 큰 모델의 성능과 비슷한 성능을 달성할 수 있도록 합니다.
https://arxiv.org/pdf/2502.04997
텍스트-이미지 생성, 이제 충돌 없이: LoRA 주파수 분석으로 품질 향상
Low-Rank Adaptation (LoRA)은 텍스트-이미지 모델에서 널리 사용되는 기술로, 다중 개념 이미지 생성에서 캐릭터 및 스타일과 같은 여러 개별 요소를 정확하게 렌더링할 수 있습니다. 그러나 현재 LoRA를 결합하는 방법은 LoRA 수가 증가함에 따라 생성된 이미지 품질이 저하되는 문제가 있습니다. 이 논문에서는 푸리에 주파수 영역을 통해 LoRA가 노이즈 제거 프로세스에서 수행하는 역할을 조사합니다. 여러 LoRA를 적용하면 "의미적 충돌"이 발생할 수 있다는 가설에 따라 실험을 수행했으며, 특정 LoRA는 가장자리 및 질감과 같은 고주파수 특징을 증폭하는 반면 다른 LoRA는 전체 구조 및 부드러운 색상 그라디언트를 포함한 저주파수 요소에 주로 중점을 두는 것으로 나타났습니다. 이러한 통찰력을 바탕으로 추론 중 LoRA를 통합하는 최적의 순서를 결정하기 위한 주파수 영역 기반 시퀀싱 전략을 고안했습니다. 이 전략은 기존 LoRA 융합 기술에서 일반적으로 발견되는 순진한 통합에 비해 체계적이고 일반화 가능한 솔루션을 제공합니다.
https://arxiv.org/pdf/2502.04923
2017년부터 명맥을 이어온 AI명문
아이펠리서치 온라인13기 사전등록 : https://bit.ly/4jzwrSS
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 2월 10일 오전 8:13