TensorRT와 Triton으로 간단하게 서빙 최적화하기

TensorRT와 triton inference server를 사용하여 서빙 스루풋을 6배까지 늘리는 방법에 대해 간단하게 튜토리얼을 작성해보았습니다.

TensorRT + Triton Inference Server로 서빙 최적화하기

Medium

TensorRT + Triton Inference Server로 서빙 최적화하기

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 5월 16일 오전 12:25

댓글 0