Task-specialized LLM을 위한 비용 효율적인 서빙 전략: AWS Inferentia2와 Hugging Face Optimum을 활용한 자체 개발 LLM 서빙하기 | Amazon Web Services
Amazon Web Services
Claude3 와 GPT4 같은 고성능의 LLM을 API로 출시하면서 수많은 기업과 조직에서는 손쉽게 다양한 작업(task)에 LLM을 활용할 수 있게 됐습니다. 하지만, 고객의 개인정보나 민감한 정보를 활용하는 작업에서는 데이터의 저장(Rest) 및 전송(Transit)에 있어 정보 유출의 위험이 있습니다. 그리고 특정 작업 수행을 위해 반복적인 호출을 해야 하는 경우에는 그 요청 수만큼 선형적으로 비용이 증가하여 요청이 많아지면 비용을 감당하기 어렵습니다. 그 외에도 커스터마이징이 어렵고 API 사용을 위한 별도의 버전 관리가 필요하기 때문에 직접 제어할 수 있는 자체 LLM 개발에 대한 니즈가 증가하고 있습니다.
특정 도메인에 특화된 Task-specialized LLM은 금융과 같은 분야의 높은 수준의 규제와 데이터 보안 요구사항을 만족시키면서도 최적화된 LLM을 사용하여 비용 절감 효과를 기대할 수 있습니다. 특히, Inferentia2는 더 낮은 비용으로 높은 배치 크기를 지원하고 비교적 우수한 성능을 보여주고 있어 경쟁력 있는 선택이 될 수 있습니다.
https://aws.amazon.com/ko/blogs/tech/task-specialized-llm-serving-aws-inferentia2-huggingface-optimum/
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 7월 25일 오전 12:17
‘탤런트’를 인재라고 생각하지 말고 그냥 TV드라마 탤런트로 생각해 보자. 주연이든 조연이든 지나가는 사람1,2든…모두 탤런트다. 탤런트만 있으면 드라마가 완성되는가? 그렇지 않다.
... 더 보기기
... 더 보기뤼튼의 누적 투자 유치액은 약 1300억원으로 분석됐다. 뤼튼에 따르면 거대언어모델(LLM)·반도체가 아닌 AI 서비스 플랫폼 분야 스타트업이 누적 투자액 1000억원을 넘은 것은 처음이다.
... 더 보기