골빈해커

Chief Maker

📝 오픈소스 LLM을 직접 서빙하는 건 비싸다

최근에 작은 모델의 오픈소스 LLM의 성능이 좋아지고, 맥에서도 사용이 된다고 하고 그러니까 역시 오픈소스가 가성비 짱짱맨! 이러지만 실제로 계산해보면 오픈소스를 직접 서빙하는 건 매우 비싸다.

Llama-3 70B를 A100에서 돌리면 20TPS 정도 나오는데, 그러면 시간당 8만 토큰정도. A100 80GB 서버 호스팅 가격은 시간당 약 USD $3 정도이다.

그런데 Llama-3 70B을 API로 서비스하고 있는 곳들은 대개 십만 토큰당 $0.1가 안되게 비용 책정이 되어 있다.

상용 API와 비교한다고 해도, 유사한 성능인 Sonnet의 평균 비용이 십만 토큰당 약 $1, 현존 최강인 GPT-4 Turbo는 $2 정도가 된다. (Input/Output를 단순 평균 낸 것으로, 실 사용시에는 보통 이보다 낮다)

게다가 한시간 내내 쉬지 않고 출력했을 때의 비용이고, 그렇게 하면 한 번에 한 사람만 쓸 수 있다.(고대적 전화선으로 호스팅하고 있는 BBS와 같..) 즉, 속도는 물론 효율성과 관리 측면에서도 일반적으로 별로 좋은 선택이 아니다.

무엇보다 LLM 모델을 제대로 서빙 할 수 있는 기술을 갖춘 엔지니어의 인건비는 포함하지도 않았다.

그러니 비용 최적화 관점으로 오픈소스 LLM을 직접 사용하겠다는 생각은 버리는게 좋다.

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 5월 4일 오전 11:17

저장 9 • 조회 2,531

함께 읽은 게시물

골빈해커

Chief Maker

7월 8일

아직 나도 정립되지 않은 상태이긴한데, 실무에서의 바이브 코딩은 다르다.

비단 개발자 관점에서만이 아니라, 기획자, 디자이너도 마찬가지로 다른 방식을 써야한다.

저장 3 • 조회 2,339

이원형

라인플러스 소프트웨어 엔지니어

3일 전

인프라 엔지니어의 교과서 개정 2판

근

저장 1 • 조회 1,351

𝙍𝙞𝙘𝙝𝙖𝙧𝙙

처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

하루 전

Do not solve it. Manage it Instead.

직장 생활을 하다보면
크고 작은 문제(Problem)들이

저장 2 • 조회 1,301

달레

Apollo GraphQL Software Engineer

7월 7일

📢 리트코드 스터디 5기 모집합니다!

코

리트코드 스터디 5기 모집 공지 · DaleStudy/leetcode-study · Discussion #1599

lnkd.in

저장 4 • 조회 2,503

psmon

웹노리라이터

2일 전

PRD분석 AI툴

저장 5 • 조회 816

석민

커리어 코치

7월 6일

어려움을 극복하는 힘

지

댓글 1 • 저장 5 • 조회 950

비슷한 게시물

서진호 sr. Presales Solution Architect, HPC&AI

<오픈소스를 위한 LLM 레시피, 파인튜닝>

송요창 배민 프론트엔드 프로그래머

성능 좋고, 값싼 중국 AI 모델 연속 등장

골빈해커 Chief Maker

🗞️ 메타, Llama 3 대공개!

강병진 GS 52g Studio 개발자

LLAMA + FAISS 오픈소스로 만드는 LLM Chat

이성규 스닙팟 CEO & Founder

AI 가 스스로 연구하고 논문을 쓰는 sakana.ai 입니다. 근래 AI 에서 가장 중요한 논문이라고 해도 과언이 아닌 트랜스포머 모델 논문 저자가 창업한 Sakana AI 이니

골빈해커 Chief Maker

ChatGPT Deep Research를 사용하면서 느끼는 점 중 하나는, 부에 따른 역량의 격차가 더 커질 수도 있겠다는 생각. 분명히 더 싸지긴 하겠지만, 그만큼 더 높은 지능

주간 인기 TOP 10

권태관 NAVER 소프트웨어 엔지니어

퇴사 부검 : 네이버를 떠나며

이양일 NaverCloud 백엔드 개발자

요구사항 변화에 따른 프로젝트 구조 확장 ⛏

K리그 프로그래머 커피한잔 개발자

컨텍스트 스위칭 - AI 코딩 부작용

유용우(요우) NAVER 백엔드 개발자

"배포했으면 스펙이지"

장홍석 스페이스오디티 부대표/CPO

< 당신이 바쁜데도 성과가 없는 이유 >

석민 커리어 코치

살아있네

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

퇴근길 지하철에서 중년 사내와 20대 후반의 한 젊은이가 필자의

레드버스백맨 리서처 앤 라이터

《기다림이 허락되지 않는 시대》

달레 Apollo GraphQL Software Engineer

👦🐍 7살 아이에게 파이썬을 가르칠 수 있을까요?

Arawn Park Senior Engineer & Engineering Lead

전문가의 태도를 배울 수 있는 강의

📝 오픈소스 LLM을 직접 서빙하는 건 비싸다

댓글 0

함께 읽은 게시물

인프라 엔지니어의 교과서 개정 2판

Do not solve it. Manage it Instead.

📢 리트코드 스터디 5기 모집합니다!

PRD분석 AI툴

어려움을 극복하는 힘

비슷한 게시물

주간 인기 TOP 10

추천 프로필