안녕하세요, LLM 답변의 신뢰도를 향상시킬 수 있는 Batch Calibration이라는 방법론을 접하게 되어 소개해드리고자 합니다!

논문: https://arxiv.org/pdf/2309.17249.pdf

저자 X: https://twitter.com/hanzhou032


In-context learning (ICL)은 LLM의 성능을 끌어올리는 방법이지만, 프롬프트의 작은 변화에도 성능이 크게 요동칠 수 있다는 한계가 있습니다. 이를 해결하기 위해 그동안 content-free token이나 random token을 활용한 교정(calibration) 방법들이 제안되어 왔습니다.


하지만 저자들은 기존 방법들을 분석하면서 몇 가지 문제점을 발견했고, 이를 해결하기 위해 Batch Calibration (BC)을 고안했습니다. BC의 핵심은 ICL 내 지시문과 예시문들의 문맥 편향(contextual bias)을 측정하고 보정하는 것이죠.


예를 들어 "긍정 0.6, 부정 0.4"와 같이 영화 리뷰의 감성을 분석하는 작업이 있습니다. 우선, 각 리뷰에 대해 모델이 예측한 긍정/부정 확률의 평균을 구해 편향을 추정합니다. 그리고 각 리뷰의 확률에서 이 편향을 빼주는 식으로 점수를 보정합니다. 마지막으로 보정된 점수를 정규화해서 최종 예측을 내립니다. 레이블된 데이터가 조금이라도 있다면, 좀 더 정교하게 교정할 수 있다고 합니다.


BC는 분류처럼 정답이 뚜렷한 작업에 국한되어 적용할 수 있습니다. 하지만 이런 작업에서 만큼은 거의 추가 비용 없이 편향을 제거해 답변을 해석하는 것을 보다 쉽게 만들어 줄 것으로 기대됩니다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 7일 오후 3:56

조회 76

댓글 0

    함께 읽은 게시물

    분량

    

    ... 더 보기

    조회 357


    웹 개발에 대한 말말말 👨‍💻

    B

    ... 더 보기

    Weird things engineers believe about Web development

    Brian Birtles' Blog

    Weird things engineers believe about Web development

     • 

    저장 9 • 조회 2,908


    🌎 해외에서 일하면 뭐가 좋을까요❓

    외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?

    ... 더 보기

    [서평] 윌라슨의 엔지니어링 리더십

    * 이 글은  "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

    ... 더 보기

    조회 826


    이력서에 쓰는 경험

    

    ... 더 보기

    < 스타벅스 컵홀더의 손글씨가 말했다: 결국은 사람이다 >

    1

    ... 더 보기