FlashAttention3 공개

LLM의 속도 향상을 위해서 최근에 수 많은 방법들이 시도되고 있는데요, batching technique이나 모델을 여러가지로 최적화하거나, 전용 하드웨어를 개발하는 등 경쟁이 날이 갈수록 치열해지고 있습니다.


Inference 할 때 많이 사용되는 것 중 하나가 FlashAttention이었는데 이번에 3버전을 공개하였습니다. 아직은 베타 릴리즈이고 H100 에서만 동작한다고 하는데 2버전 대비 1.5~2배 정도의 향상이 있었다고 합니다. 꽤 많은 서비스에서 잘 활용되지 않을까 싶네요ㅎㅎ


https://www.together.ai/blog/flashattention-3

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

Together

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 7월 12일 오전 12:19

 • 

저장 11조회 2,680

댓글 0

    함께 읽은 게시물

    AI 시대, 데이터 분석에 대해 새롭게 정의해야 하는 이유

    AI 시대를 맞이하면서 우리는 다양한

    ... 더 보기

    MCP 모르면 대체 얼마나 손해 보는 걸까?🤔

    ... 더 보기

    MCP 모르면 대체 얼마나 손해 보는 걸까? | 요즘IT

    요즘IT

    MCP 모르면 대체 얼마나 손해 보는 걸까? | 요즘IT

    [Datamation] AI 데이터 분류 마스터링: 궁극의 가이드

    A

    ... 더 보기

    Mastering AI Data Classification: Ultimate Guide

    Datamation

    Mastering AI Data Classification: Ultimate Guide

     • 

    저장 6 • 조회 1,954