요즘 LLM의 발전 방향을 보면 크게 두가지 흐름이 있는 것 같습니다.
RAG (Retrieve and Generate)를 통해 외부 지식을 사용하거나,
Long-Context (LC) LLM을 학습하여 모델이 한번에 처리 가능한 입력 토큰 수를 키우는 것
RAG는 작은 모델로도 많은 지식을 다룰 수 있고, 추가 학습 없이도 최신 정보를 전달할 수 있다는 장점이 있기 때문에 Perplexity AI, Claude 등 대부분의 LLM 기반 검색 서비스에서 사용하고 있고, 이러한 기술을 뒷받침하기 위해 새로 출시하는 LLM도 대부분 긴 컨텍스트를 처리할 수 있도록 학습되고 있죠.
GPT-4 Turbo 모델이나 최근에 업데이트된 Llama 3.1 모델들 모두 128K 토큰을 처리할 수 있고, Gemini 1.5 Pro 모델은 무려 2M 토큰을 처리할 수 있다고 합니다.
🤔 그렇다면 RAG와 LC 중 어떤 방법이 더 효과적일까요? 이 질문에 대답하기 위해 구글 딥마인드 연구진은 다양한 실험을 통해 LC가 여러 벤치마크에서 전반적으로 더 좋은 성능을 보인다는 결론을 얻었습니다. 반면, RAG는 훨씬 적은 비용으로도 LC에 준하는 성능을 얻을 수 있다는 장점이 있고요. 여기서 더 나아가 저자는 답변 품질은 유지하면서 비용을 낮출 수 있는 하이브리드 방법론인 Self-Route를 제시합니다.
🔗
Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
Google DeepMind
University of Michigan
https://arxiv.org/pdf/2407.16833
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 8월 5일 오전 6:27