MosaicML의 상용 활용이 가능한 LLM인 MPT-7B

MosaicML 에서 MPT (MosaicML Pretrained Transformer) 라는 모델을 공개했습니다. - 링크: https://www.mosaicml.com/blog/mpt-7b 이번에 공개한 것은 7B 사이즈의 모델인데요, base 모델 뿐 아니라 long context를 위한 모델, instruction fine-tuning을 진행한 모델과 chat 용도 모델도 공개했습니다. Chat 모델은 research-only 데이터를 활용해서 그런지, chat 모델을 제외하면 모두 상용으로 활용이 가능합니다. 학습 방법과 사용한 데이터들도 모두 다 자세히 공개해 놓았습니다. 대부분 공개되어 있던 데이터를 활용해서 기존의 모델들에 비해 크게 다른 점은 없어 보입니다. 다만 학습에 포함된 토큰이 1T로 꽤 많은데 LLaMA와 달리 commercial 활용이 가능하다는 점이 가장 큰 특징일 것 같습니다. Benchmark 결과도 올려 놓았는데 LLaMA 와 엎치락 뒤치락 하는 정도이기 때문에 앞으로 이를 활용해서도 여러 모델이 쏟아져 나올 것으로 보이고 7B를 시작으로 더 큰 모델들도 추가로 공개하지 않을까 싶습니다. 이렇게 계속 많은 회사와 단체에서 엄청난 돈과 시간을 투자한 모델들을 공개해 주다니 감사할 따름입니다...ㅎㅎ

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs

Mosaicml

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 5월 6일 오후 12:56

댓글 0