검색엔진 증강 기법을 통해, 최신 지식이 필요한 질문에 대해 정확도는 크게 높이고 할루시네이션은 줄였다는 논문.


FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation - https://arxiv.org/abs/2310.03214


GPT-4를 그냥 썼을 때는 28.6점, GPT-4에 구글 검색 결과를 추가했을 때 75.6점으로 급격히 상승했다고 합니다.


프롬프트는 구글 검색 결과를 거의 그대로 스크래핑해서 넣는 수준이어서, Google과 OpenAI가 참여한 작업치고는 실험이나 결과가 너무 평범하고 당연한(?) 내용이라는 생각이 들긴합니다만.. ㅎㅎ (구글 검색엔진 성능 자랑?)


빠르게 변화하는 최신 지식이 필요한 질문과, 반박이 필요한 거짓 전제를 포함한 질문과 답변 유형을 포함하는 동적 QA 벤치마크인 FreshQA를 개발했다는 것이 핵심이긴 합니다.


그나저나, 이 논문에서도 최신 결과를 마지막에 넣어야 성능이 더 좋아진다고 하는데요. 다시 생각해도 Lost in the Middle 논문이 진짜 중요한 발견을 했다는 생각이 드네요. 종종 생각하는 것이지만, 참 이런 것 마저 인간과 유사한 것도 신기합니다. ㅎㅎ

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 10월 8일 오후 4:13

 • 

저장 8조회 1,872

댓글 0