AI 추론 전용 칩을 만드는 회사인 Cerebras가 추론 서비스를 런칭했는데요. 속도가 정말 어메이징합니다.


Llama3.1-70B 추론시 450 Token/s 로, 속도가 미쳤다고했던 Groq에 비해서도 거의 두배 가까운 속도를 보여줍니다. 가격도 저렴하고요.


Llama-3.1 8B, Gemini-1.5 Flash가 200TPS 정도 수준이니 정말 어마어마한 속도가 아닐 수 없습니다. 그야말로 성능과 속도 둘 다 잡은 격이네요.


아무튼 이제 추론 서버도 전쟁이 시작되는 것 같은데요. 과연 이 시장에서 Nvidia가 어떻게 나올지 궁금합니다. 물론 학습용 그리고 범용(?!) GPU로는 아직 절대적이긴하지만요.

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 8월 28일 오후 5:59

댓글 0

    함께 읽은 게시물

    코치로서 40일, 짧은 회고

    ... 더 보기

    유튜브가 대세이다. 포탈 사이트에서 검색하던 사람들이 이제는 유튜브에서 먼저 검색하며, 한 해 수입이 수십 억에 달하는 유튜버들도 많다고 한다. 이런 분위기에 영향을 받아 필자도 콘텐츠 개발과 홍보 차원에서 유튜브를 본격적으로 시작했다.

    ... 더 보기

    재능보다 중요한 세가지 능력

    n.news.naver.com

    재능보다 중요한 세가지 능력

    오픈 소스 라이선스 가이드

    ... 더 보기

    오픈 소스 라이선스 가이드

    www.daleseo.com

    오픈 소스 라이선스 가이드

     • 

    저장 10 • 조회 2,320


    가장 훌륭한 경비절감 방법은 ‘몰입’이다. 가장 훌륭한 생산성 향상 방법도 ‘몰입’이다. 이는 많은 경영학자들이 연구를 통해 증명한 사실이다.

    ... 더 보기

    [백진기 칼럼]그래 한번 미쳐보자?(110편)

    메디칼타임즈

    [백진기 칼럼]그래 한번 미쳐보자?(110편)

    박람회

    

    ... 더 보기

    사이드 프로젝트 34개를 만들고 느낀점 10가지

    1️⃣ 아이디어의 가치는 실행했을 때 비로소 생긴다.

    ... 더 보기

     • 

    저장 123 • 조회 4,366