📝 RAG vs Long-Context LLM, 승자는?

요즘 LLM의 발전 방향을 보면 크게 두가지 흐름이 있는 것 같습니다.


  1. RAG (Retrieve and Generate)를 통해 외부 지식을 사용하거나,

  2. Long-Context (LC) LLM을 학습하여 모델이 한번에 처리 가능한 입력 토큰 수를 키우는 것


RAG는 작은 모델로도 많은 지식을 다룰 수 있고, 추가 학습 없이도 최신 정보를 전달할 수 있다는 장점이 있기 때문에 Perplexity AI, Claude 등 대부분의 LLM 기반 검색 서비스에서 사용하고 있고, 이러한 기술을 뒷받침하기 위해 새로 출시하는 LLM도 대부분 긴 컨텍스트를 처리할 수 있도록 학습되고 있죠.


GPT-4 Turbo 모델이나 최근에 업데이트된 Llama 3.1 모델들 모두 128K 토큰을 처리할 수 있고, Gemini 1.5 Pro 모델은 무려 2M 토큰을 처리할 수 있다고 합니다.


🤔 그렇다면 RAG와 LC 중 어떤 방법이 더 효과적일까요? 이 질문에 대답하기 위해 구글 딥마인드 연구진은 다양한 실험을 통해 LC가 여러 벤치마크에서 전반적으로 더 좋은 성능을 보인다는 결론을 얻었습니다. 반면, RAG는 훨씬 적은 비용으로도 LC에 준하는 성능을 얻을 수 있다는 장점이 있고요. 여기서 더 나아가 저자는 답변 품질은 유지하면서 비용을 낮출 수 있는 하이브리드 방법론인 Self-Route를 제시합니다.


🔗

Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

Google DeepMind University of Michigan

https://arxiv.org/pdf/2407.16833


다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 5일 오전 6:27

 • 

저장 14조회 1,523

댓글 0

    함께 읽은 게시물

    이력서에 쓰는 경험

    

    ... 더 보기

    노션 템플릿들을 만들면서 적는 회고

    ... 더 보기

    < 스타벅스 컵홀더의 손글씨가 말했다: 결국은 사람이다 >

    1

    ... 더 보기