❝AI/ML 테크 블로그 포스트 소개❞ '이루다'로 유명한 스캐터랩 핑퐁 팀에서 AWS Inferentia를 사용한 딥러닝 모델 추론 최적화의 소중한 사례를 공유해주었다. AI 가속기를 이용한 추
❝AI/ML 테크 블로그 포스트 소개❞ '이루다'로 유명한 스캐터랩 핑퐁 팀에서 AWS Inferentia를 사용한 딥러닝 모델 추론 최적화의 소중한 사례를 공유해주었다. AI 가속기를 이용한 추론 최적화 기술도 꽤나 재미있는데 Inferentia는 아마존에서 2015년 이스라엘 스타트업 안나푸르나 랩을 인수, 개발해서 2018년부터 서비스 중인 AI 하드웨어. 아래는 블로그 내용을 이해하기 위해 요약한 것입니다. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 1. AWS Inferentia 칩은 모델 추론을 빠르게 하기 위해서 BP16이라는 혼합 정밀도를 사용해. FP32(= 단정밀도)랑 비교해봤는데 모델 추론 결과의 차이가 거의 없더라. 🙌 2. 1번 실험 결과를 믿고 Inferentia를 적용하기로 했어. 1) 근데 AWS Neuron SDK 컴파일은 토크나이저 연산을 따로 지원해주지 않아. 그래서 기존 추론 파이프라인에서 토크나이저 서버를 분리해야 했어. 비동기 호출하게끔 FastAPI로 개발했는데 오버헤드가 별로 없더라. ⚡️ 2) 드디어 남은 핵심부, TF의 Roberta 언어 모델을 Neuron 컴파일해서 저장했어. AWS에서 제공하는 TF 서빙 도커 이미지 기반으로 저장한 모델을 서비스할 거야. 🧠 3) 실 서비스를 위해 EKS에 배포했고 Locust로 수행한 부하 테스트도 성공적으로 끝났어. 이렇게 Inferentia를 도입해서 처리량은 최대 2.6배 높이면서 비용은 최대 5.7배 줄일 수 있었어! 💰