Community

LLaMA2 Long 모델

* Meta에서 Effective Long-Context Scaling of Foundation Models이라는 논문을 통해 LLaMA2 Long 모델을 공개했습니다. * 논문: https://arxiv.org/pdf/2309.16039.pdf * LLaMA2 모델에서 인풋 context window의 길이가 32K(32,768) 토큰까지 지원하는 모델입니다. * Long context의 continual pretraining이 더 효과적이고, pretrain할 때 long context를 학습하여 스크래치부터 학습하는 것과 유사한 성능을 보여줍니다. * 70B Long 버전은 gpt-3.5-turbo-16k의 성능을 뛰어넘는다고 합니다.

알림

알림이 없습니다