📝 오픈소스 LLM을 직접 서빙하는 건 비싸다

최근에 작은 모델의 오픈소스 LLM의 성능이 좋아지고, 맥에서도 사용이 된다고 하고 그러니까 역시 오픈소스가 가성비 짱짱맨! 이러지만 실제로 계산해보면 오픈소스를 직접 서빙하는 건 매우 비싸다.


Llama-3 70B를 A100에서 돌리면 20TPS 정도 나오는데, 그러면 시간당 8만 토큰정도. A100 80GB 서버 호스팅 가격은 시간당 약 USD $3 정도이다.


그런데 Llama-3 70B을 API로 서비스하고 있는 곳들은 대개 십만 토큰당 $0.1가 안되게 비용 책정이 되어 있다.


상용 API와 비교한다고 해도, 유사한 성능인 Sonnet의 평균 비용이 십만 토큰당 약 $1, 현존 최강인 GPT-4 Turbo는 $2 정도가 된다. (Input/Output를 단순 평균 낸 것으로, 실 사용시에는 보통 이보다 낮다)


게다가 한시간 내내 쉬지 않고 출력했을 때의 비용이고, 그렇게 하면 한 번에 한 사람만 쓸 수 있다.(고대적 전화선으로 호스팅하고 있는 BBS와 같..) 즉, 속도는 물론 효율성과 관리 측면에서도 일반적으로 별로 좋은 선택이 아니다.


무엇보다 LLM 모델을 제대로 서빙 할 수 있는 기술을 갖춘 엔지니어의 인건비는 포함하지도 않았다.


그러니 비용 최적화 관점으로 오픈소스 LLM을 직접 사용하겠다는 생각은 버리는게 좋다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 5월 4일 오전 11:17

댓글 0