안녕하세요, LLM 답변의 신뢰도를 향상시킬 수 있는 Batch Calibration이라는 방법론을 접하게 되어 소개해드리고자 합니다!
논문: https://arxiv.org/pdf/2309.17249.pdf
저자 X: https://twitter.com/hanzhou032
In-context learning (ICL)은 LLM의 성능을 끌어올리는 방법이지만, 프롬프트의 작은 변화에도 성능이 크게 요동칠 수 있다는 한계가 있습니다. 이를 해결하기 위해 그동안 content-free token이나 random token을 활용한 교정(calibration) 방법들이 제안되어 왔습니다.
하지만 저자들은 기존 방법들을 분석하면서 몇 가지 문제점을 발견했고, 이를 해결하기 위해 Batch Calibration (BC)을 고안했습니다. BC의 핵심은 ICL 내 지시문과 예시문들의 문맥 편향(contextual bias)을 측정하고 보정하는 것이죠.
예를 들어 "긍정 0.6, 부정 0.4"와 같이 영화 리뷰의 감성을 분석하는 작업이 있습니다. 우선, 각 리뷰에 대해 모델이 예측한 긍정/부정 확률의 평균을 구해 편향을 추정합니다. 그리고 각 리뷰의 확률에서 이 편향을 빼주는 식으로 점수를 보정합니다. 마지막으로 보정된 점수를 정규화해서 최종 예측을 내립니다. 레이블된 데이터가 조금이라도 있다면, 좀 더 정교하게 교정할 수 있다고 합니다.
BC는 분류처럼 정답이 뚜렷한 작업에 국한되어 적용할 수 있습니다. 하지만 이런 작업에서 만큼은 거의 추가 비용 없이 편향을 제거해 답변을 해석하는 것을 보다 쉽게 만들어 줄 것으로 기대됩니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 4월 7일 오후 3:56