๐ RAG vs Long-Context LLM, ์น์๋?
์์ฆ LLM์ ๋ฐ์ ๋ฐฉํฅ์ ๋ณด๋ฉด ํฌ๊ฒ ๋๊ฐ์ง ํ๋ฆ์ด ์๋ ๊ฒ ๊ฐ์ต๋๋ค. 1. RAG (Retrieve and Generate)๋ฅผ ํตํด ์ธ๋ถ ์ง์์ ์ฌ์ฉํ๊ฑฐ๋, 2. Long-Context (LC) LLM์ ํ์ตํ์ฌ ๋ชจ๋ธ์ด ํ๋ฒ์ ์ฒ๋ฆฌ ๊ฐ๋ฅํ ์ ๋ ฅ ํ ํฐ ์๋ฅผ ํค์ฐ๋ ๊ฒ RAG๋ ์์ ๋ชจ๋ธ๋ก๋ ๋ง์ ์ง์์ ๋ค๋ฃฐ ์ ์๊ณ , ์ถ๊ฐ ํ์ต ์์ด๋ ์ต์ ์ ๋ณด๋ฅผ ์ ๋ฌํ ์ ์๋ค๋ ์ฅ์ ์ด ์๊ธฐ ๋๋ฌธ์ Perplexity AI, Claude ๋ฑ ๋๋ถ๋ถ์ LLM ๊ธฐ๋ฐ ๊ฒ์ ์๋น์ค์์ ์ฌ์ฉํ๊ณ ์๊ณ , ์ด๋ฌํ ๊ธฐ์ ์ ๋ท๋ฐ์นจํ๊ธฐ ์ํด ์๋ก ์ถ์ํ๋ LLM๋ ๋๋ถ๋ถ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ์ต๋๊ณ ์์ฃ . GPT-4 Turbo ๋ชจ๋ธ์ด๋ ์ต๊ทผ์ ์ ๋ฐ์ดํธ๋ Llama 3.1 ๋ชจ๋ธ๋ค ๋ชจ๋ 128K ํ ํฐ์ ์ฒ๋ฆฌํ ์ ์๊ณ , Gemini 1.5 Pro ๋ชจ๋ธ์ ๋ฌด๋ ค 2M ํ ํฐ์ ์ฒ๋ฆฌํ ์ ์๋ค๊ณ ํฉ๋๋ค. ๐ค ๊ทธ๋ ๋ค๋ฉด RAG์ LC ์ค ์ด๋ค ๋ฐฉ๋ฒ์ด ๋ ํจ๊ณผ์ ์ผ๊น์? ์ด ์ง๋ฌธ์ ๋๋ตํ๊ธฐ ์ํด ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋ ์ฐ๊ตฌ์ง์ ๋ค์ํ ์คํ์ ํตํด LC๊ฐ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ์ ๋ฐ์ ์ผ๋ก ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒฐ๋ก ์ ์ป์์ต๋๋ค. ๋ฐ๋ฉด, RAG๋ ํจ์ฌ ์ ์ ๋น์ฉ์ผ๋ก๋ LC์ ์คํ๋ ์ฑ๋ฅ์ ์ป์ ์ ์๋ค๋ ์ฅ์ ์ด ์๊ณ ์. ์ฌ๊ธฐ์ ๋ ๋์๊ฐ ์ ์๋ ๋ต๋ณ ํ์ง์ ์ ์งํ๋ฉด์ ๋น์ฉ์ ๋ฎ์ถ ์ ์๋ ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ๋ฒ๋ก ์ธ Self-Route๋ฅผ ์ ์ํฉ๋๋ค. ๐ Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach Google DeepMind University of Michigan https://arxiv.org/pdf/2407.16833