검색엔진 증강 기법을 통해, 최신 지식이 필요한 질문에 대해 정확도는 크게 높이고 할루시네이션은 줄였다는 논문.


FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation - https://arxiv.org/abs/2310.03214


GPT-4를 그냥 썼을 때는 28.6점, GPT-4에 구글 검색 결과를 추가했을 때 75.6점으로 급격히 상승했다고 합니다.


프롬프트는 구글 검색 결과를 거의 그대로 스크래핑해서 넣는 수준이어서, Google과 OpenAI가 참여한 작업치고는 실험이나 결과가 너무 평범하고 당연한(?) 내용이라는 생각이 들긴합니다만.. ㅎㅎ (구글 검색엔진 성능 자랑?)


빠르게 변화하는 최신 지식이 필요한 질문과, 반박이 필요한 거짓 전제를 포함한 질문과 답변 유형을 포함하는 동적 QA 벤치마크인 FreshQA를 개발했다는 것이 핵심이긴 합니다.


그나저나, 이 논문에서도 최신 결과를 마지막에 넣어야 성능이 더 좋아진다고 하는데요. 다시 생각해도 Lost in the Middle 논문이 진짜 중요한 발견을 했다는 생각이 드네요. 종종 생각하는 것이지만, 참 이런 것 마저 인간과 유사한 것도 신기합니다. ㅎㅎ

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 10월 8일 오후 4:13

 • 

저장 8조회 1,870

댓글 0

    함께 읽은 게시물

    [대방출] AWS GenAI 공개 고객 사례집!

    ... 더 보기

    AWS GenAI 공개 고객 사례집 | Notion

    Seonhwan Baek의 Notion on Notion

    AWS GenAI 공개 고객 사례집 | Notion

    기회

    

    ... 더 보기

    조회 529


    SSR 최적화

    ... 더 보기

    마이리얼트립 SSR 최적화

    Medium

    마이리얼트립 SSR 최적화

     • 

    저장 49 • 조회 6,117


    '보이스루'의 영상 번역 AI 서비스를 위한 LLM 비교 선택 과정

    ... 더 보기

    Voithru의 GPT에서 Amazon Bedrock Claude Sonnet 3.5로의 전환 여정 | Amazon Web Services

    Amazon Web Services

    Voithru의 GPT에서 Amazon Bedrock Claude Sonnet 3.5로의 전환 여정 | Amazon Web Services


    이번 구글 I/O, 구글 여러분들 행사전에 입이 근질근질하셨겠네요. ㅎㅎ


    내용은 다들 소개하셨으니 한줄평하자면, 구글이 처음으로 OpenAI에 비해 반발짝정도 앞서나간 이벤트인 것 같습니다.


    더불어 출시한 모델과 서비스들을 보니.. 역시 AI는 돈빨이며 구글이 돈빨을 제대로 세웠.. 쿨럭..