전동현

네이버 AI Research Engineer / Leader

Nvidia의 새로운 LLM Inference 라이브러리

Nvidia에서 TensorRT-LLM (TRT-LLM) 이름으로 새로운 LLM Inference 라이브러리를 공식 릴리즈했습니다.

Announcement blog:

https://developer.nvidia.com/blog/optimizing-inference-on-llms-with-tensorrt-llm-now-publicly-available/

TensorRT-LLM:

https://github.com/NVIDIA/TensorRT-LLM

Nvidia에서는 BERT, GPT, T5, ViT 등 다양한 Transformer 구조의 모델들에 대해서 inference 속도를 최적화 하기 위해 개발하던 Faster Transformer 라이브러리가 있었습니다만, 이제는 LLM 전용으로 Inference 최적화를 하는 TensorRT-LLM으로 넘어갔습니다. Faster Transformer v5.3 이후 이제 더이상 Nvidia에서 maintain하지 않습니다.

LLM 서빙 비용을 생각하면 vLLM, Orca 등과 같이 Throughput 측면에서 최적화가 더 중요해졌기 때문에 그 관점에서 많은 부분들이 개선되었습니다.

Faster Transformer 대비 TRT-LLM의 주요 특징들을 정리하자면 아래 정도가 될 것 같습니다.

- 기존의 GPT 계열 뿐만 아니라 Llama 계열의 모델들도 지원

- FlashAttention-2 기반의 Multi-head attention (MHA) 커널 적용

- vLLM에서 사용되는 paged attention 기반의 KV cache 최적화 적용

- vLLM, Orca에서 continuous batching 혹은 iteration-level batching 이라고 하는 전략을 TRT-LLM에서는 In-flight batching 이름으로 구현

- fp8 기반에서 최적화된 quantization 지원

- Faster Transformer처럼 Triton Inference Server의 backend로 지원 https://github.com/triton-inference-server/tensorrtllm_backend

성능은 아래 페이지에서 확인하실 수 있습니다. Latency, Throughput, GPU util 등이 몇 배 좋아졌다 얘기하진 않겠습니다. 리포트 되는 수치만큼 안나오는 경우도 많기 때문에 직접 개발환경에서 확인해보시는게 좋습니다^^

(FT와 vLLM 등 다른 서빙 방법과의 비교 결과도 있으면 좋았을텐데...아쉽네요)

https://github.com/NVIDIA/TensorRT-LLM/blob/release/0.5.0/docs/source/performance.md

Optimizing Inference on Large Language Models with NVIDIA TensorRT-LLM, Now Publicly Available | NVIDIA Technical Blog

NVIDIA Technical Blog

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 10월 21일 오전 8:33

•

저장 17 • 조회 6,154

함께 읽은 게시물

골빈해커

Chief Maker

4일 전

나는 가끔 조합형 한글의 아름다움에 대해 생각한다.

그 아름다움은 단순히 예쁜 글꼴이나 정갈한 종이 위의 자소 배열에서 끝나지 않는다. 진짜 매력은, 정밀한 정보 구조와 이산 수학적 규칙성 속에 숨어 있다.

저장 5 • 조회 2,220

석민

커리어 코치

3일 전

이력서에 쓰는 경험

댓글 1 • 저장 13 • 조회 1,144

psmon

웹노리라이터

하루 전

서버엔지니어의 시대적 고민

서

저장 4 • 조회 1,069

이건승

카카오스타일 | CRM 데이터 분석가 & Team Lead

2024년 01월 21일

데이터 분석에서 강조하는 <도메인 지식>의 중요성은 무엇일까?

데

데이터 분석에서 강조하는 «도메인 지식»의 중.. : 네이버블로그

blog.naver.com

저장 6 • 조회 600

비슷한 게시물

김지훈 Software engineer

Leaky abstraction

손현우 Software Engineer

AI인가 아닌가? 🤖

골빈해커 Chief Maker

Reflection 70B가 성능이 대단하다고 많이 이슈가 되는 모양인데.. 결과를 보니 그냥 Self-reflection 프롬프팅이랑 차이가 없는거 아닌가.. 고성능 모델에서 r

변성윤 머신러닝 엔지니어, Engineering Manager

Code with AI 발표 자료

최고은 프로덕트 디자이너

🤖생성형 AI 툴로 디자인해보자! (스터디 후기)

송요창 배민 프론트엔드 프로그래머

5주 간의 Cursor IDE 실전 사용 후기

주간 인기 TOP 10

달레 Apollo GraphQL Software Engineer

🎯 유튜브에 100번째 코딩 테스트 문제 풀이 영상을 올렸습니다!

김하림 우아한형제들 프론트엔드 개발자

타입 안전한 API 모킹으로 프론트엔드 생산성 높이기

Arawn Park Senior Engineer & Engineering Lead

나는 시스템 빌더이다

석민 커리어 코치

이직의 조건

골빈해커 Chief Maker

어제 출시된 따끈따끈한 ChatGPT Codex를 실제 프로젝트

동크루트 AI 엔지니어, SW 엔지니어

샘 알트만: "지금 당신이 o3보다 더 똑똑하다고 생각하세요?"

장홍석 스페이스오디티 부대표/CPO

< '네이버 다녀요'라는 말에 아무도 무슨 일을 하는지는 묻지 않

장홍석 스페이스오디티 부대표/CPO

< 초동 100만 장, 그런데 팬은 어디 있죠? - 엔터 테크와

송요창 배민 프론트엔드 프로그래머

ChatGPT 버전명 설명

레드버스백맨 리서처 앤 라이터

⟪디자인의 역할은 프로세스에서 낭비를 줄이고 생산성을 개선하는 것

Nvidia의 새로운 LLM Inference 라이브러리

댓글 0

함께 읽은 게시물

이력서에 쓰는 경험

서버엔지니어의 시대적 고민

데이터 분석에서 강조하는 <도메인 지식>의 중요성은 무엇일까?

비슷한 게시물

주간 인기 TOP 10

추천 프로필