의용님의 프로필 사진

의용

llama3.1을 vllm API를 통해 서빙 feat. FastAPI

최근에 Llama3.1이 공개 되었다. 그래서 이번에는 Llama3.1 사용하는 방법과 vllm에서 이를 서빙하는 방법에 대해 알아보려고 한다.

현재까지도 vllm을 api로 서빙 하려고 하는데 GPU 자원이 부족한다. 조금 더 알아봐야 겠지만 runpod에서 gpu 16GB 4개를 엮어서 쓸수 있는 방법을 찾아보자.

https://unfinishedgod.netlify.app/2024/07/26/llm-llama3-1-vllm-api-feat-fastapi/

[LLM] llama3.1을 vllm API를 통해 서빙해보자. (feat. FastAPi) - 미완성의신

unfinishedgod.netlify.app

[LLM] llama3.1을 vllm API를 통해 서빙해보자. (feat. FastAPi) - 미완성의신

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 7월 26일 오후 5:20

댓글 0