Community

TensorRT와 Triton으로 간단하게 서빙 최적화하기

TensorRT와 triton inference server를 사용하여 서빙 스루풋을 6배까지 늘리는 방법에 대해 간단하게 튜토리얼을 작성해보았습니다.

알림

알림이 없습니다