FlashAttention3 공개

LLM의 속도 향상을 위해서 최근에 수 많은 방법들이 시도되고 있는데요, batching technique이나 모델을 여러가지로 최적화하거나, 전용 하드웨어를 개발하는 등 경쟁이 날이 갈수록 치열해지고 있습니다.


Inference 할 때 많이 사용되는 것 중 하나가 FlashAttention이었는데 이번에 3버전을 공개하였습니다. 아직은 베타 릴리즈이고 H100 에서만 동작한다고 하는데 2버전 대비 1.5~2배 정도의 향상이 있었다고 합니다. 꽤 많은 서비스에서 잘 활용되지 않을까 싶네요ㅎㅎ


https://www.together.ai/blog/flashattention-3

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

Together

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 7월 12일 오전 12:19

 • 

저장 11조회 2,655

댓글 0