ML gpu model server 성능을 유지하며 cpu server로 전환한 경험 공유
Medium
요즘 비용 절감이 큰 화두죠. gpu 자원은 예나 지금이나 귀하고 비싼데요. 학습할 때야 gpu를 쓰지만, 서빙할 때는 이제 고민을 합니다. gpu는 한정적이니까요.
그래서 느린 성능을 감안하고 cpu로 서빙하거나, 비용에도 불구하고 gpu를 쓰거나, 어떻게든 튜닝하거나 하는데, 어떻게든 튜닝한 사례를 소개합니다.
네이버 글로벌 플레이스팀에서 동일한 성능을 유지하면서 model server를 gpu에서 cpu로 전환하여 연간 약 4억원의 비용절감을 했다고 합니다.
글은 cpu로 바꾸고 나서의 성능 진단(rps와 response가 10배~20배 정도 느렸다고 합니다.), 많은 수의 cpu 를 사용했을 때 병렬도가 떨어지는 pytorch 내의 원인 파악, 모델 경량화, 검증까지 이어지는데요. ml 모델 서빙에 관심이 있으면 읽어보면 좋겠습니다.
https://medium.com/naver-place-dev/ml-model-server-gpu-cpu-전환-경험-공유-251e024acb35
다음 내용이 궁금하다면?
이미 회원이신가요?
2023년 10월 16일 오전 12:35