FlexFlow Serve for LLM

vLLM, Huggingface TGI, Faster Transformer 보다 빠른 LLM inference 시스템이 나왔습니다. FlexFlow Serve는 Low-Latency, High-Performance 를 위한 오픈 소스 컴파일러 및 분산 시스템인데요. 단일 노드, 멀티 GPU 추론의 경우 기존 시스템보다 1.3~2.0배, 멀티 노드, 멀티 GPU 추론의 경우 1.4~2.4배 더 뛰어난 성능을 제공합니다. 싱글배치로 Faster transformer보다 2배 가까이 빠르다니.. 단, 디코딩에는 small speculative models (SSM)을, 검증에는 LLM을 활용하는 새로운 추측 추론 기법을 사용하므로 정확도에 영향을 미칠 수 있다고 하는걸 보니, 어쩔수 없이 품질 측면에서 꽤나 차이 나는것 같습니다. 현재는 아래와 같은 모델 아키텍쳐들을 지원한다고 합니다. - LlamaForCausalLM / LLaMAForCausalLM (e.g. LLaMA/LLaMA-2, Guanaco, Vicuna, Alpaca, ...) - OPTForCausalLM (models from the OPT family) - RWForCausalLM (models from the Falcon family) - GPTBigCodeForCausalLM (models from the Starcoder family) https://github.com/flexflow/FlexFlow

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 8월 23일 오전 11:05

조회 938

댓글 0