Jonas Kim

데이터 과학자, ML 엔지니어

Paper Review 1 - FlashAttention

요즘 고전이 된 논문들을 다시 공부하면서 커리어리에 정리해 보려고 한다. 오늘 소개할 논문은 2022년에 스탠퍼드 대학 박사과정 Tri Dao가 쓴 'FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness'(https://arxiv.org/abs/2205.14135) 이다.

이 논문의 주된 아이디어는 트랜스포머 모델의 훈련과 추론 속도를 높이기 위해, GPU 메모리 입출력(IO)을 줄이는 것이다. 이를 위해 연산량(FLOPS)이 증가하더라도 IO를 최소화하는 방식으로 어텐션 연산을 최적화한다.

먼저, GPU 메모리 계층 구조를 이해해야 한다. GPU 메모리는 빠르지만 용량이 작은 HBM과 느리지만 용량이 큰 SRAM으로 구성된다. 논문은 GPU 연산 중 HBM과 SRAM 사이의 데이터 이동이 주요 병목 현상이라고 지적한다.

참고로 딥러닝 연산은 크게 두 가지로 나뉜다:

1. 컴퓨팅 바운드 연산: 연산량이 메모리 IO보다 많은 경우 (예: 행렬곱)

2. 메모리 바운드 연산: 메모리 IO가 연산량보다 많은 경우 (예: 소프트맥스, 활성화 함수, 배치/레이어 정규화)

GPU는 주로 컴퓨팅 바운드 연산에 큰 이점을 가지고 있기 때문에, 느린 메모리 바운드 연산을 효율화하는 데 이 논문은 초점을 맞추었다.

트랜스포머의 일반적인 어텐션 연산은 다음과 같은 단계로 이루어진다:

1. 쿼리(Query)와 키(Key) 행렬의 곱셈

2. 행 단위 소프트맥스 적용

3. 밸류(Value) 행렬과의 곱셈

이 과정에서 HBM 읽기와 쓰기가 반복적으로 일어나게 된다.

반면, 플래시 어텐션은 다음과 같은 방식으로 어텐션 연산을 최적화한다:

1. 기존의 어텐션 연산을 SRAM 크기에 적합한 블록 단위로 분할

2. 각 블록에 대해 HBM에서 단 한 번만 데이터를 읽어와 SRAM에 저장

3. SRAM에서 행렬곱, 마스킹, 소프트맥스, 행렬곱을 모두 수행

4. 결과를 HBM에 다시 저장
5. 1 ~ 4번의 연산을 블록마다 반복

이것은 특정 벡터에 대한 소프트맥스 연산을 여러 서브 벡터에 대한 순차적인 누적 연산으로 분할하여 정확하게 계산할 수 있기 때문에 가능하다. 이러한 타일링(Tiling)은 입력이 동일한 다수의 연산을 합쳐서 처리량을 늘리는 커널 퓨전 기법의 일종이다.

또한, 플래시 어텐션은 역전파 시 필요한 중간값 행렬들을 저장하지 않고 그때그때 재연산하는 방식을 사용한다. 이 역시 연산량을 늘리지만 IO는 줄이는 효과가 있으며, 그래디언트 체크포인팅 기법이라고 할 수 있다.

이러한 플래시 어텐션 기법을 통해 훈련 및 추론 시간을 단축할 수 있지만, 별도의 CUDA 구현과 장비별 컴파일링 과정이 필요하다는 단점이 있다. 또한, 이론적인 성능에 비해 실제 속도 향상이 다소 제한적인 면이 있는데, 이에 대한 보완책으로 FlashAttention-2 논문이 발표되었다.

#Transformer #Optimization

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 5월 13일 오후 2:40

•

저장 8 • 조회 2,194

함께 읽은 게시물

강재상

스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

2일 전

많은 분들이 찾아주시면서 입소문이 났는지 계속 개설 요청이 이어지네요. 지난 3기가 7월 20일경에 끝났는데 개설 요청으로 인해 8월말에 4기를 진행하는 것으로 결정했습니다. 재무재표를 통해 산업과 시장을 읽고, 기업과 사업모델을 파악하고, 나아가 나의 사업

[B라운지] 4주만에 재무제표 기초 정복하기 (4기) : PBR

www.pbr.kr

저장 1 • 조회 311

Arawn Park

Senior Engineer & Engineering Lead

6일 전

넷플릭스는 왜 WebFlux를 사용하지 않을까?

십

넷플릭스는 왜 WebFlux를 사용하지 않을까?

kr.linkedin.com

저장 14 • 조회 1,731

장홍석

스페이스오디티 부대표/CPO

4일 전

< 피터 드러커가 말한 7살도 아는 성공 공식 >

댓글 1 • 저장 8 • 조회 954

이원형

라인플러스 소프트웨어 엔지니어

7월 26일

인프라 엔지니어의 교과서 개정 2판

근

저장 4 • 조회 2,182

장홍석

스페이스오디티 부대표/CPO

3일 전

< 보여서 걷는 게 아니라, 걷다 보니 길 >

댓글 1 • 저장 4 • 조회 777

장홍석

스페이스오디티 부대표/CPO

하루 전

< 혁신의 첫 반응은 '박수'가 아니라 '야유'다 >

댓글 1 • 저장 1 • 조회 343

비슷한 게시물

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0822]모두에게 전하는 모두연 AI뉴스!

조성래 Seonglae Cho

Sonnet이 GPT4 성능을 따라잡은 이유??

이명진 한국레드햇 솔루션 아키텍트

딥러닝용 멀티 GPU 리눅스 머신 설정하기

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[1002]모두에게 전하는 모두연 AI뉴스!

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0930]모두에게 전하는 모두연 AI뉴스!

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0820]모두에게 전하는 모두연 AI뉴스!

주간 인기 TOP 10

골빈해커 Chief Maker

오늘의 탐라는 “ChatGPT 쓰셨던데 그러고도 개발자입니까?”

김의중 프론트엔드 개발자

Claude Code 실전 가이드: AI 네이티브 개발자로 가는

Arawn Park Senior Engineer & Engineering Lead

넷플릭스는 왜 WebFlux를 사용하지 않을까?

psmon 블룸에이아이 서버 엔지니어

카프카를 우아하게 사용하기 -코틀린편

달레 Apollo GraphQL Software Engineer

알아 알아 알아! 🤣

장홍석 스페이스오디티 부대표/CPO

< 몇 번 졌는지는 중요하지 않다, 인생은 결국 득실차다 >

황경찬(Boaz) P.E.C CEO

"AI가 코드를 짜는 시대, 개발자의 가치는 무엇일까요?" 최근

정종윤 네이버 프론트엔드 개발자

👻 클라이언트에서 안전한 소셜 로그인 구현을 위한 OIDC와 PK

박승규 카카오계열사에서 이것저것 만드는 개발자

책이 출판되기 전 마지막 교정을 하고 있는데... GPT5가 출시

석민 커리어 코치

백엔드 개발자 이력서 고민

Paper Review 1 - FlashAttention