LLM inference 속도를 높여주는 vLLM
UC버클리 시작한 오픈소스 프로젝트인 vLLM은 PagedAttention 기법을 활용해서 LLM inference 속도를 굉장히 높여준다고 합니다. 저도 아직 테스트는 못해봤는데, 결과만 놓고 보면 안 쓸 이유가 없어 보입니다. - 링크: https://vllm.ai/ 현재 지원되고 있는 모델들의 경우에도 GPT NeoX 계열과 LLaMA 계열을 모두 지원하고 있습니다. (https://vllm.readthedocs.io/en/latest/models/supported_models.html) Pythia, Dolly, StableLM, Redpajama 등이 모두 neo x 계열이고 여러 한국어 모델들 또한 polyglot 기반입니다. Vicuna, Alpaca, Koala 등 모델들도 LLaMA 기반이니 많은 모델들이 동작할 것 같습니다. 모델을 직접 추가하는 방법 (https://vllm.readthedocs.io/en/latest/models/adding_model.html#adding-a-new-model ) 도 있는데, Roadmap (https://github.com/vllm-project/vllm/issues/244) 을 보면 Falcon과 같은 최근 인기를 얻는 모델들이나 다양한 encoder-decoder 모델들도 열심히 작업중인 것으로 보여 이걸 기다려 보는 것도 좋을 것 같습니다.