Long Context LLM

LLM이 처음 나왔을 때보다 최근엔 모델의 가능한 input 길이가 급격하게 커짐에 따라 더욱 다양한 서비스들에 LLM을 활용할 수 있게 되었는데요. 그래서 Long Context LLM 관련된 좋은 글들을 정리해봤습니다. 순서대로 보시는걸 추천드립니다. 1. Long Context를 만들기 위해 시도했던 내용들과 분석. https://kaiokendev.github.io/context 2. Vicuna를 만든 UC Berkeley쪽에서 llama 모델(2k tokens input) 기반으로 16K tokens 까지 받을 수 있는 longchat 버전을 개발, 성능들을 실험적으로 비교/분석. https://lmsys.org/blog/2023-06-29-longchat/ 3. Long context 모델은 주로 Finetuning 단에서 이뤄지고 있는데, Pretraining 단에서의 추가 적인고찰. https://www.harmdevries.com/post/context-length/

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 9월 18일 오전 11:28

댓글 2