네이버에서 모델 성능 유지하며 귀한 GPU를 CPU로 대체한 방법

요즘 비용 절감이 큰 화두죠. gpu 자원은 예나 지금이나 귀하고 비싼데요. 학습할 때야 gpu를 쓰지만, 서빙할 때는 이제 고민을 합니다. gpu는 한정적이니까요. 


그래서 느린 성능을 감안하고 cpu로 서빙하거나, 비용에도 불구하고 gpu를 쓰거나, 어떻게든 튜닝하거나 하는데, 어떻게든 튜닝한 사례를 소개합니다. 


네이버 글로벌 플레이스팀에서 동일한 성능을 유지하면서 model server를 gpu에서 cpu로 전환하여 연간 약 4억원의 비용절감을 했다고 합니다. 


글은 cpu로 바꾸고 나서의 성능 진단(rps와 response가 10배~20배 정도 느렸다고 합니다.), 많은 수의 cpu 를 사용했을 때 병렬도가 떨어지는 pytorch 내의 원인 파악, 모델 경량화, 검증까지 이어지는데요. ml 모델 서빙에 관심이 있으면 읽어보면 좋겠습니다.


https://medium.com/naver-place-dev/ml-model-server-gpu-cpu-전환-경험-공유-251e024acb35


ML gpu model server 성능을 유지하며 cpu server로 전환한 경험 공유

Medium

ML gpu model server 성능을 유지하며 cpu server로 전환한 경험 공유

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 10월 16일 오전 12:35

 • 

저장 42조회 2,800

댓글 0

    함께 읽은 게시물

    앱 개발 개척시대

    A

    ... 더 보기

    앱 개발 개척시대

    K리그 프로그래머

    앱 개발 개척시대

     • 

    저장 6 • 조회 1,699


    📰 OpenAI가 ChatGPT의 커넥터 기능을 업데이트하면서 MCP 지원을 추가했네요.

    ... 더 보기

    용인시 도서관 휴먼북 인터뷰

    ... 더 보기

    용인시 도서관 휴먼북 인터뷰

    I'm Prostars

    용인시 도서관 휴먼북 인터뷰

    발이 닿지 않는 바다에서

    ... 더 보기

    발이 닿지 않는 바다에서

    hajoeun.com

    발이 닿지 않는 바다에서

     • 

    저장 2 • 조회 1,590


    전략적 입사 지원

    ... 더 보기

    ATM이 삼킨 카드

    

    ... 더 보기