AI 추론 전용 칩을 만드는 회사인 Cerebras가 추론 서비스를 런칭했는데요. 속도가 정말 어메이징합니다.


Llama3.1-70B 추론시 450 Token/s 로, 속도가 미쳤다고했던 Groq에 비해서도 거의 두배 가까운 속도를 보여줍니다. 가격도 저렴하고요.


Llama-3.1 8B, Gemini-1.5 Flash가 200TPS 정도 수준이니 정말 어마어마한 속도가 아닐 수 없습니다. 그야말로 성능과 속도 둘 다 잡은 격이네요.


아무튼 이제 추론 서버도 전쟁이 시작되는 것 같은데요. 과연 이 시장에서 Nvidia가 어떻게 나올지 궁금합니다. 물론 학습용 그리고 범용(?!) GPU로는 아직 절대적이긴하지만요.

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 8월 28일 오후 5:59

댓글 0