ASPIRE: LLM의 선택적 예측을 위한 프레임워크

기계학습 분야에서 예측값의 신뢰도를 정확하게 측정하고 조정하는 것은 중요한 연구 주제이다. 이는 LLM 분야도 마찬가지로 앤쓰로픽이 2022년 'Language Models (Mostly) Know What They Know'(https://arxiv.org/abs/2207.05221) 논문에서 해당 연구를 진행한 바 있다. 이번 구글에서 나온 'Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs'(https://arxiv.org/abs/2310.11689) 논문 또한 이 주제를 다루고 있다. 이 논문은 LLM의 선택적 예측 능력을 향상시키기 위해 설계된 새로운 프레임워크인 ASPIRE를 소개한다. 이 프레임워크는 특히 LLM이 질문에 대한 답변을 제공하는 동시에 그 답변의 정확성을 평가하는 방식으로 훈련되는 것이 특징이다. ASPIRE는 세 가지 주요 단계로 구성된다. 1. 태스크 특화 튜닝: 이 단계에서 ASPIRE는 소프트 프롬프트 튜닝과 같은 PEFT 기법을 사용하여 사전 훈련된 LLM을 특정 태스크에 맞게 튜닝한다. 2. 답변 샘플링: 태스크 특화 튜닝 후, LLM은 각 훈련 질문에 대해 다양한 답변을 생성한다. 이 과정에서 빔 탐색과 같은 디코딩 알고리즘을 사용하여 높은 가능도의 출력 시퀀스를 생성한다. 3. 자가 평가 학습: 높은 가능도를 가진 출력들을 샘플링한 후, ASPIRE는 추가적인 튜닝 가능한 파라미터를 도입하고 질문과 답변을 모두 포함하는 콘텍스트를 전달하여 해당 답변이 정답인지 오답인지를 판별하게끔 학습한다. 이 과정을 통해 LLM은 다양한 답변 후보들에 대한 신뢰도를 더 정확하게 학습하게 된다. 이렇게 학습된 모델은 여러 답변 후보의 가능도를 통해 자가 평가 점수를 계산하는 데 사용할 수 있다. ASPIRE의 접근 방식에서 LLM은 답변의 가능도와 함께 그 답변이 올바를 확률(자가 평가 점수)을 결합하여 선택적 예측을 수행할 수 있다. ASPIRE의 효과는 다양한 QA 데이터셋에 적용하여 입증되었다. 예를 들어, CoQA 벤치마크에서 ASPIRE는 AUACC 및 AUROC 점수를 기존의 앤쓰로픽 방식을 상당히 개선했다.

ASPIRE: LLM의 선택적 예측을 위한 프레임워크

알림