[LLM] llama3.1을 vllm API를 통해 서빙해보자. (feat. FastAPi) - 미완성의신
unfinishedgod.netlify.app
최근에 Llama3.1이 공개 되었다. 그래서 이번에는 Llama3.1 사용하는 방법과 vllm에서 이를 서빙하는 방법에 대해 알아보려고 한다.
현재까지도 vllm을 api로 서빙 하려고 하는데 GPU 자원이 부족한다. 조금 더 알아봐야 겠지만 runpod에서 gpu 16GB 4개를 엮어서 쓸수 있는 방법을 찾아보자.
https://unfinishedgod.netlify.app/2024/07/26/llm-llama3-1-vllm-api-feat-fastapi/
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2024년 7월 26일 오후 5:20
훌
... 더 보기Product Designer 그리고 Frontend(RN App) 혹은 Backend Engineer(Python/TS)를 곧 모셔야할 듯.. 요즘은 어디로 가야 좋은 분들을 만날 수 있으려나요. 디자인과 개발을 즐기는 사람이라면 경력자가 아니어도 괜찮은데..
•
조회 3,109