Alibaba에서 새로운 LLM을 내놓았습니다. llama 기반으로 학습된 Qwen-7B 모델과 추가 파인튜닝까지한 Qwen-7B-Chat 모델을 공개했습니다.
주요 차이점은 pretraining에 2.2 Trillion token을 사용했다는 것이고, context length는 8K까지 (LLaMA-2의 2배) 지원한다고 합니다.
동일 사이즈에서는 현존하는 모델 중에 가장 성능이 좋은 것으로 보고되었고, LLaMA-2 13B 모델보다도 좋은 성능을 보여주네요.
https://github.com/QwenLM/Qwen-7B