vLLM, Huggingface TGI, Faster Transformer 보다 빠른 LLM inference 시스템이 나왔습니다.
FlexFlow Serve는 Low-Latency, High-Performance 를 위한 오픈 소스 컴파일러 및 분산 시스템인데요.
단일 노드, 멀티 GPU 추론의 경우 기존 시스템보다 1.3~2.0배,
멀티 노드, 멀티 GPU 추론의 경우 1.4~2.4배 더 뛰어난 성능을 제공합니다.
싱글배치로 Faster transformer보다 2배 가까이 빠르다니..
단, 디코딩에는 small speculative models (SSM)을, 검증에는 LLM을 활용하는 새로운 추측 추론 기법을 사용하므로 정확도에 영향을 미칠 수 있다고 하는걸 보니, 어쩔수 없이 품질 측면에서 꽤나 차이 나는것 같습니다.
현재는 아래와 같은 모델 아키텍쳐들을 지원한다고 합니다.
- LlamaForCausalLM / LLaMAForCausalLM (e.g. LLaMA/LLaMA-2, Guanaco, Vicuna, Alpaca, ...)
- OPTForCausalLM (models from the OPT family)
- RWForCausalLM (models from the Falcon family)
- GPTBigCodeForCausalLM (models from the Starcoder family)
https://github.com/flexflow/FlexFlow