LLM inference 속도를 높여주는 vLLM

UC버클리 시작한 오픈소스 프로젝트인 vLLM은 PagedAttention 기법을 활용해서 LLM inference 속도를 굉장히 높여준다고 합니다. 저도 아직 테스트는 못해봤는데, 결과만 놓고 보면 안 쓸 이유가 없어 보입니다. - 링크: https://vllm.ai/ 현재 지원되고 있는 모델들의 경우에도 GPT NeoX 계열과 LLaMA 계열을 모두 지원하고 있습니다. (https://vllm.readthedocs.io/en/latest/models/supported_models.html) Pythia, Dolly, StableLM, Redpajama 등이 모두 neo x 계열이고 여러 한국어 모델들 또한 polyglot 기반입니다. Vicuna, Alpaca, Koala 등 모델들도 LLaMA 기반이니 많은 모델들이 동작할 것 같습니다. 모델을 직접 추가하는 방법 (https://vllm.readthedocs.io/en/latest/models/adding_model.html#adding-a-new-model ) 도 있는데, Roadmap (https://github.com/vllm-project/vllm/issues/244) 을 보면 Falcon과 같은 최근 인기를 얻는 모델들이나 다양한 encoder-decoder 모델들도 열심히 작업중인 것으로 보여 이걸 기다려 보는 것도 좋을 것 같습니다.

vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention

Vllm

vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 6월 28일 오전 2:41

댓글 0

    함께 읽은 게시물


    고난이 사람을 키운다

    태초에 모든 동물은 바다에서 살았다. 바다가 동물이 살기 좋은 환경이었던 것이다. 그런데, 동물 사이에 먹이 사슬이 형성되었고, 힘이 없는 동물들은 척박한 곳으로 밀려났다. 그곳이 바로 강이다. 처음에는 강에서 살기 힘들었지만, 성공적으로 적응하는 동물들이 생겨났고, 그래서 강에도 생태계가 형성되었다.

    ... 더 보기