요즘 LLM의 발전 방향을 보면 크게 두가지 흐름이 있는 것 같습니다.
RAG (Retrieve and Generate)를 통해 외부 지식을 사용하거나,
Long-Context (LC) LLM을 학습하여 모델이 한번에 처리 가능한 입력 토큰 수를 키우는 것
RAG는 작은 모델로도 많은 지식을 다룰 수 있고, 추가 학습 없이도 최신 정보를 전달할 수 있다는 장점이 있기 때문에 Perplexity AI, Claude 등 대부분의 LLM 기반 검색 서비스에서 사용하고 있고, 이러한 기술을 뒷받침하기 위해 새로 출시하는 LLM도 대부분 긴 컨텍스트를 처리할 수 있도록 학습되고 있죠.
GPT-4 Turbo 모델이나 최근에 업데이트된 Llama 3.1 모델들 모두 128K 토큰을 처리할 수 있고, Gemini 1.5 Pro 모델은 무려 2M 토큰을 처리할 수 있다고 합니다.
🤔 그렇다면 RAG와 LC 중 어떤 방법이 더 효과적일까요? 이 질문에 대답하기 위해 구글 딥마인드 연구진은 다양한 실험을 통해 LC가 여러 벤치마크에서 전반적으로 더 좋은 성능을 보인다는 결론을 얻었습니다. 반면, RAG는 훨씬 적은 비용으로도 LC에 준하는 성능을 얻을 수 있다는 장점이 있고요. 여기서 더 나아가 저자는 답변 품질은 유지하면서 비용을 낮출 수 있는 하이브리드 방법론인 Self-Route를 제시합니다.
🔗
Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
Google DeepMind
University of Michigan
https://arxiv.org/pdf/2407.16833
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 8월 5일 오전 6:27
얼마전에 신입 개발자 채용시 과제를 10분 내에 빠르게 만들어서 보낸 사람을 채용했다며, 빠르게 결과를 냈기 때문에 채용했다는 글이 SNS에 많이 돌았다. 그러면서 이렇게 말한다.
"알고리즘 많이 푸는 개발자보다, AI로 빠르게 결과 내는 사람을 선호. 알고리즘, 코딩 책 안 봐도 AI 도구만 적극 활용하면 취업 기회 잡을 수 있다."