NLP 의 강자 중 하나인 Salesforce에서도 어제 오픈소스 LLM을 새롭게 공개했습니다. XGen이라는 이름을 가진 모델이고 현재는 7B 크기의 모델만 공개를 하였습니다.
- 링크: https://blog.salesforceairesearch.com/xgen/
특징으로는 최대 1.5T 규모의 토큰을 학습했다고 하며, input context 가 무려 8k 까지 가능하다고 합니다. OpenAI GPT 등에 비하면 아직 적다고 볼 수 있지만 오픈소스 모델들 중에서는 가장 긴 편에 속합니다. (물론 MPT는 65k 가 가능한 모델도 만들어 놓았습니다만)
base 모델은 apache 2.0 라이센스이기 때문에 상용으로 활용 가능하고, instruct set에 fine-tuning한 모델은 역시나 research-only 데이터셋을 활용해서 그런지 상용으로는 사용할 수 없을 것으로 보입니다.
벤치마크 결과를 보면 놀라운 수준까지는 아닌 것 같습니다. 7B 모델 중에는 가장 잘 나오는 경우도 있고, 그렇지는 않은 경우도 있습니다만 그래도 대체적으로 높은 성능을 보여주기 때문에 SOTA 라고 불릴 수 있을 것 같습니다. 어쨌든 해당 규모 모델 중 가장 성능이 높은 편이면서 input context length 를 길게 가져갈 수 있어서, 이걸 기반으로 앞으로 여러 모델들이 쏟아져 나올 것 같습니다...ㅎㅎ