아직 죽지 않았다, ReLU!

오늘은 ICLR 2024에서 oral accept을 받은 논문 하나를 소개해보려 합니다.


ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models


요즘에 ReLU를 많이 쓰지 않는 것 같아요. GeLU와 SiLU와 같은 non-ReLU 계열들이 더 빠른 convergence를 가지고 성능 측면에서도 좋다는 결과들이 많이 등장했기 때문입니다.


그러나 이 논문에서는 scaling law에서 얘기하는 바처럼 충분히 많은 데이터로 큰 모델을 학습할 때는 activation function의 종류는 큰 영향을 주지 못한다고 말합니다. 실제로 OPT 1.3B에 대해 학습해보았을 때, ReLU, GeLU, SiLU에 대해 다 비슷비슷한 성능을 보였어요.


ReLU는 non-ReLU 계열들과 다르게 activation sparsity가 높습니다. pre-activation value가 음수면 모두 0으로 보내버리니 당연하겠죠? activation sparsity가 높으면 학습 및 추론에서 연산량을 줄일 수 있기 때문에 효율적입니다.


따라서 저자들은 성능도 비슷한데 효율적인 ReLU를 쓰는게 어떻냐고 제안했고 그 제안이 충분히 합리적이었기 때문에 oral accept을 받았다고 생각합니다. 논문에는 ReLU로 pre-train 되지 않은 모델들은 어떻게 ReLU를 사용하게 할지도 자세히 설명해주니 한번 읽어보시길 추천드려요!


오늘 모델 학습할 때는 ReLU 한잔 어떠실까요?


논문 링크: https://arxiv.org/abs/2310.04564

ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models

arXiv.org

ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 6월 28일 오후 12:01

댓글 0

    함께 읽은 게시물

    “뜻밖에 아주 야비하고 어이없는 일을 당하더라도 그것 때문에 괴로워하거나 짜증내지 마라. 그냥 지식이 하나 늘었다고 생각하라. 인간의 성격을 공부해가던 중에 고려해야 할 요소가 새로 하나 나타난 것뿐이다. 우연히 아주 특이한 광물 표본을 손에 넣은 광물학자와 같은 태도를 취하라.” 현대판 마키아벨리라 불리는 로버트 그린의 책 <인간 본성의 법칙>은 쇼펜하우어의 말을 인용하는 것으로 시작한다.

    ... 더 보기

    [허연의 책과 지성] 누가 뒤통수를 치거든 경험이 하나 늘었다고 생각하라 - 매일경제

    매일경제

    [허연의 책과 지성] 누가 뒤통수를 치거든 경험이 하나 늘었다고 생각하라 - 매일경제

    < 이직을 고민하는 당신이 던져야 할 단 3가지 질문 >

    1. 커리어를 선택하는 기준은 다양하다. 일단 내가 가진 가치관이 가장 큰 영향을 준다. 남들의 시선과 판단도 무시할 수 없다. 이직 트렌드와 경향도 살펴봐야 한다.

    ... 더 보기

     • 

    댓글 1 • 저장 4 • 조회 745


    공식적으로 뭐하는 회사인지는 모르지만 일단 100억달러 기업가치

    ... 더 보기

    무라티의 싱킹 머신즈, 20억달러 투자 유치..."실리콘 밸리 사상 최대 시드 투자"

    AI타임스

    무라티의 싱킹 머신즈, 20억달러 투자 유치..."실리콘 밸리 사상 최대 시드 투자"

    조회 507



    < 가짜 전문가와 진짜 멘토를 구별하는 법 >

    1. 질문에 대한 답을 제공하는 일을 돈벌이로 삼는 사람은 상대가 누구라도 질문이 같으면 같은 대답을 합니다.

    ... 더 보기