Meta에서 Effective Long-Context Scaling of Foundation Models이라는 논문을 통해 LLaMA2 Long 모델을 공개했습니다.
논문: https://arxiv.org/pdf/2309.16039.pdf
LLaMA2 모델에서 인풋 context window의 길이가 32K(32,768) 토큰까지 지원하는 모델입니다.
Long context의 continual pretraining이 더 효과적이고, pretrain할 때 long context를 학습하여 스크래치부터 학습하는 것과 유사한 성능을 보여줍니다.
70B Long 버전은 gpt-3.5-turbo-16k의 성능을 뛰어넘는다고 합니다.
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2023년 10월 6일 오전 11:30
데