대규모 언어 모델이 오류를 식별하고 정정할 수 있나요?

모니터링은 못해도 장애 대응은 잘 한다는거구나... 👷


TL;DR

❓ LLM이 다른 LLM의 추론 오류를 찾아내서 고쳐줄 수 있을까?

🙅‍♀️ 어렵다, CoT 추론에서 발생한 논리적 오류를 제대로 발견 못하며(가장 우수한 모델조차 겨우 53% 정도) 이를 통해 정답의 정확도를 측정하는 작업 또한 신뢰성이 낮음

💡 근데 LLM에게 오류가 발생한 추론 단계를 정확히 알려준다면 백트래킹 기법으로 정정이 가능하다

🤔 근데 오류가 발생한 단계를 어떻게 알려줘? 별도의 파인튜닝한 리워드 모델을 사용 → LLM의 제로샷 프롬프팅보다 정확도 0~20% 향상


논문: https://arxiv.org/abs/2311.08516

데이터셋: https://github.com/WHGTyen/BIG-Bench-Mistake

Can large language models identify and correct their mistakes?

Research

Can large language models identify and correct their mistakes?

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 1월 13일 오후 1:01

댓글 0

    함께 읽은 게시물

    < 아무리 따라 해도 ‘애플’이 될 수 없는 이유 >

    1. 기술도 디자인도 무척 모방이 쉽다. 디자인은 바로 똑같이 따라할 수 있으며 대부분의 기술은 리버스 엔지니어링이 가능하다.

    ... 더 보기

    창업 후 성장이 필요하거나, 회사의 규모에 상관없이 성장이 정체되어 있는 회사들은 주먹구구식 경영에서 탈피하여 회사를 시스템화해야 합니다. 이는 회사의 생존은 물론이고, 한 단계 더 높은 도약과 지속적인 성장을 위해 반드시 필요한 과정입니다.

    ... 더 보기

    [주먹구구식 경영 탈피] 도대체 회사의 시스템(체계)이란 무엇일까요? - 모비인사이드 MOBIINSIDE

    모비인사이드 MOBIINSIDE

    [주먹구구식 경영 탈피] 도대체 회사의 시스템(체계)이란 무엇일까요? - 모비인사이드 MOBIINSIDE

    서류탈락 반복? 이거 안 하면 절대 못 붙어요

    ... 더 보기

    다이스(Dice)의 2022년 보고서에 따르면 응답자의 52%가 내년에 이직할 가능성이 있다고 답했다. 1년 전에는 44%가 그렇게 응답했다. 조직의 아젠다를 추진하는 데 있어 우수한 인재는 매우 중요하다. 인재의 상실이 얼마나 큰 대가를 치르게 하는지는 누구나 잘 알고 있을 터다.

    ... 더 보기

    ‘이제 떠나야겠군...’ IT 직원들이 퇴사하는 12가지 이유

    CIO

    ‘이제 떠나야겠군...’ IT 직원들이 퇴사하는 12가지 이유

    < 가장 강력한 마케팅은 당신의 철학을 공개하는 것이다 >

    1. ’무엇‘과 ’어떻게‘는 일정한 기준으로 측정 가능하며 우열도 가릴 수 있지만 ’왜‘는 그 사람만의 삶의 방식에 따른 것으로 고유성을 갖는다.

    ... 더 보기

    <'책 한 권에 딱 한 줄만 가지겠다'라는 마음으로 책을 읽는다>

    1. 적지 않은 사람들이 하는 말이 있는데 바로 '책을 읽긴 했는데 아무 생각도 떠오르지 않는다'라는 것이다. 목적 없이 책을 읽은 탓이다. 나 같은 경우에는 딱 한 줄만 가지겠다는 마음으로 읽는다.

    ... 더 보기