의용님의 프로필 사진

의용

AWS T4 GPU 서버에서 vllm 사용


그동안 local에서 파인튜닝된 모델을 사용하기 위해 ollama를 사용 했었는데 속도문제로 고생을 했었다. 너무 느리다. 그러던 와중 vllm에 대해 알게 되어서 이번에 글을쓴다. 실제로 커뮤니티의 다른 분이 테스트를 진행 해주었는데, 10배가량 빨라서 앞으로는 vllm을 사용해서 api로 서빙하면 될듯


https://unfinishedgod.netlify.app/2024/07/08/llm-aws-t4-gpu-vllm/

[LLM] AWS T4 GPU 서버에서 vllm 사용하기 - 미완성의신

unfinishedgod.netlify.app

[LLM] AWS T4 GPU 서버에서 vllm 사용하기 - 미완성의신

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 7월 8일 오후 11:58

댓글 0

    함께 읽은 게시물

    성장을 위해 완벽주의를 버리다

    성장은 무엇인가요? 무엇인가를 얻거나 배우는 것이 성장이라고 생각하시나요? 하지만 내가 스스로 장점이라 생각했던 것을 상황에 따라 바꾸는 것도 성장인 것 같아요 최근에 이렇게 생각을 바꿔가게 되었던 경험을 적어봤습니다

    성장을 위해 완벽주의를 버리다

    Growth Ryan

    성장을 위해 완벽주의를 버리다

    제품을 빠르게 출시하는 8가지 방법

    ... 더 보기

    How to ship fast

    wrap text ↩

    How to ship fast

    어려운 문제를 대하는 태도

    

    ... 더 보기

    < '시간이 없다'는 세상에서 가장 흔한 거짓말 >

    1. 오랜만에 만난 사람은 늘 어색하다. 뭔가 말을 건네야 한다. 인사 없이 지나가긴 애매하다. 하지만 대화 주제는 많지 않다. 날씨, 뉴스 얘기 몇 마디는 어떻게 해본다. 하지만 가장 어려운 건 마무리다.

    ... 더 보기

    이력서에 쓰는 경험

    

    ... 더 보기

    스크럼 마스터(Scrum Master)가 생각해 볼 질문들

    1. P

    ... 더 보기

    스크럼 마스터(Scrum Master)가 생각해 볼 질문들

    Growth Ryan

    스크럼 마스터(Scrum Master)가 생각해 볼 질문들