의용님의 프로필 사진

의용

AWS T4 GPU 서버에서 vllm 사용


그동안 local에서 파인튜닝된 모델을 사용하기 위해 ollama를 사용 했었는데 속도문제로 고생을 했었다. 너무 느리다. 그러던 와중 vllm에 대해 알게 되어서 이번에 글을쓴다. 실제로 커뮤니티의 다른 분이 테스트를 진행 해주었는데, 10배가량 빨라서 앞으로는 vllm을 사용해서 api로 서빙하면 될듯


https://unfinishedgod.netlify.app/2024/07/08/llm-aws-t4-gpu-vllm/

[LLM] AWS T4 GPU 서버에서 vllm 사용하기 - 미완성의신

unfinishedgod.netlify.app

[LLM] AWS T4 GPU 서버에서 vllm 사용하기 - 미완성의신

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 7월 8일 오후 11:58

댓글 0

    함께 읽은 게시물

    [2025 원티드 하이파이브 후기]

    ... 더 보기

    2025 원티드 HIGH FIVE 후기

    Brunch Story

    2025 원티드 HIGH FIVE 후기