<LLM에서 추론을 빠르게 하는 법>
커리어리 친구들, LLM을 훈련하는 것 외에 추론하는 것도 속도와 비용을 고려하지 않을 수 없습니자. LLM을 빠르게 Inference 할 수 있는 도구들이 생겨나고 있습니다. 가장 유명한 2가지를 공유합니다. 1. TGI(Text Generation Inference): https://github.com/huggingface/text-generation-inference 2. vLLM: https://github.com/vllm-project/vllm vLLM은 10배 이상의 Inference 속도를 만들어 준다고 합니다. TGI는 허깅페이스에서 만들었습니다! 그래서 쓰기 편합니다! vLLM 2: https://vllm.ai/