Can large language models identify and correct their mistakes?
Research
모니터링은 못해도 장애 대응은 잘 한다는거구나... 👷
TL;DR
❓ LLM이 다른 LLM의 추론 오류를 찾아내서 고쳐줄 수 있을까?
🙅♀️ 어렵다, CoT 추론에서 발생한 논리적 오류를 제대로 발견 못하며(가장 우수한 모델조차 겨우 53% 정도) 이를 통해 정답의 정확도를 측정하는 작업 또한 신뢰성이 낮음
💡 근데 LLM에게 오류가 발생한 추론 단계를 정확히 알려준다면 백트래킹 기법으로 정정이 가능하다
🤔 근데 오류가 발생한 단계를 어떻게 알려줘? 별도의 파인튜닝한 리워드 모델을 사용 → LLM의 제로샷 프롬프팅보다 정확도 0~20% 향상
논문: https://arxiv.org/abs/2311.08516
데이터셋: https://github.com/WHGTyen/BIG-Bench-Mistake
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2024년 1월 13일 오후 1:01
1. 기술도 디자인도 무척 모방이 쉽다. 디자인은 바로 똑같이 따라할 수 있으며 대부분의 기술은 리버스 엔지니어링이 가능하다.
창업 후 성장이 필요하거나, 회사의 규모에 상관없이 성장이 정체되어 있는 회사들은 주먹구구식 경영에서 탈피하여 회사를 시스템화해야 합니다. 이는 회사의 생존은 물론이고, 한 단계 더 높은 도약과 지속적인 성장을 위해 반드시 필요한 과정입니다.
... 더 보기다이스(Dice)의 2022년 보고서에 따르면 응답자의 52%가 내년에 이직할 가능성이 있다고 답했다. 1년 전에는 44%가 그렇게 응답했다. 조직의 아젠다를 추진하는 데 있어 우수한 인재는 매우 중요하다. 인재의 상실이 얼마나 큰 대가를 치르게 하는지는 누구나 잘 알고 있을 터다.
... 더 보기1. ’무엇‘과 ’어떻게‘는 일정한 기준으로 측정 가능하며 우열도 가릴 수 있지만 ’왜‘는 그 사람만의 삶의 방식에 따른 것으로 고유성을 갖는다.
1. 적지 않은 사람들이 하는 말이 있는데 바로 '책을 읽긴 했는데 아무 생각도 떠오르지 않는다'라는 것이다. 목적 없이 책을 읽은 탓이다. 나 같은 경우에는 딱 한 줄만 가지겠다는 마음으로 읽는다.
... 더 보기