대규모 언어 모델이 오류를 식별하고 정정할 수 있나요?
모니터링은 못해도 장애 대응은 잘 한다는거구나... 👷 TL;DR ❓ LLM이 다른 LLM의 추론 오류를 찾아내서 고쳐줄 수 있을까? 🙅♀️ 어렵다, CoT 추론에서 발생한 논리적 오류를 제대로 발견 못하며(가장 우수한 모델조차 겨우 53% 정도) 이를 통해 정답의 정확도를 측정하는 작업 또한 신뢰성이 낮음 💡 근데 LLM에게 오류가 발생한 추론 단계를 정확히 알려준다면 백트래킹 기법으로 정정이 가능하다 🤔 근데 오류가 발생한 단계를 어떻게 알려줘? 별도의 파인튜닝한 리워드 모델을 사용 → LLM의 제로샷 프롬프팅보다 정확도 0~20% 향상 논문: https://arxiv.org/abs/2311.08516 데이터셋: https://github.com/WHGTyen/BIG-Bench-Mistake