오늘 발표된 Llama 4 Scout 의 컨텍스트 윈도우 크기인 10M(천만개) 토큰이 어느정도 수준인지 느낌적인 느낌으로 알아봅시다.
평균적으로 단어당 약 1.2개의 토큰이니, 75%라고 치고 총 7.5M 개의 단어를 담을 수 있다고 하면, 일반적인 문고판 책 기준으로 약 100권이니 책장 한 개 정도. 영화 대본으로는 약 350편 이상을 담을 수 있습니다.
다른 예로, 리눅스 커널의 전체 라인수는 약 40M 로, 한 줄당 평균 5개의 토큰을 사용한다고 하면, 200M 정도의 토큰을 가지고 있는건데요.
즉, Llama 4 Scount 를 20개만 띄워놓고 있으면 세상에서 가장 큰 코드 베이스 중 하나인 리눅스도 RAG 없이 모든 디테일을 정확히 참조하며 개발 할 수 있다는 말이 됩니다.
이미 지금도 매우 크지만, 컨텍스트 윈도우가 1B 이상 되면 또 다시 완전히 다른 세상이 될겁니다. RAG라는 개념이 사라지진 않겠지만, LLM 사용시 데이터 참조 방법에 대해서 완전히 다른 접근법을 취해야되겠죠.
그리고 그 시기는 생각보다 금방 올 지도 모르겠습니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 6일 오전 6:34