안녕하세요, LLM 답변의 신뢰도를 향상시킬 수 있는 Batch Calibration이라는 방법론을 접하게 되어 소개해드리고자 합니다!

논문: https://arxiv.org/pdf/2309.17249.pdf

저자 X: https://twitter.com/hanzhou032


In-context learning (ICL)은 LLM의 성능을 끌어올리는 방법이지만, 프롬프트의 작은 변화에도 성능이 크게 요동칠 수 있다는 한계가 있습니다. 이를 해결하기 위해 그동안 content-free token이나 random token을 활용한 교정(calibration) 방법들이 제안되어 왔습니다.


하지만 저자들은 기존 방법들을 분석하면서 몇 가지 문제점을 발견했고, 이를 해결하기 위해 Batch Calibration (BC)을 고안했습니다. BC의 핵심은 ICL 내 지시문과 예시문들의 문맥 편향(contextual bias)을 측정하고 보정하는 것이죠.


예를 들어 "긍정 0.6, 부정 0.4"와 같이 영화 리뷰의 감성을 분석하는 작업이 있습니다. 우선, 각 리뷰에 대해 모델이 예측한 긍정/부정 확률의 평균을 구해 편향을 추정합니다. 그리고 각 리뷰의 확률에서 이 편향을 빼주는 식으로 점수를 보정합니다. 마지막으로 보정된 점수를 정규화해서 최종 예측을 내립니다. 레이블된 데이터가 조금이라도 있다면, 좀 더 정교하게 교정할 수 있다고 합니다.


BC는 분류처럼 정답이 뚜렷한 작업에 국한되어 적용할 수 있습니다. 하지만 이런 작업에서 만큼은 거의 추가 비용 없이 편향을 제거해 답변을 해석하는 것을 보다 쉽게 만들어 줄 것으로 기대됩니다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 7일 오후 3:56

조회 78

댓글 0

    함께 읽은 게시물

    < ‘사람은 변하지 않는다’고 믿으며, 사람을 바꾸는 일을 한다 >

    1

    ... 더 보기

    앤드류 챈의 프로덕트 마켓 핏(PMF) 관련 글을 바탕으로 인스타그램 포맷에 맞춰서 콘텐츠를 만들어봤습니다:)

    ... 더 보기

    < 일 잘하는 PM은 문제의 ‘이름’부터 정의한다 >

    1

    ... 더 보기

     • 

    댓글 1 • 저장 14 • 조회 591


    먹은 뒤의 흔적’만 보여준다. 하겐다즈의 광고에 주목하게 되는 이유

    ... 더 보기

    < 내가 뭘 원하는지 도무지 모를 때 해야 할 단 한 가지 >

    1. 하고 싶다고 생각한 것은 사실 당신의 마음속에서부터 나온 게 아니라, 상식이나 가족, 또는 친구의 기대에 영향받은 것이 많다.

    ... 더 보기