아직 죽지 않았다, ReLU!

오늘은 ICLR 2024에서 oral accept을 받은 논문 하나를 소개해보려 합니다.


ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models


요즘에 ReLU를 많이 쓰지 않는 것 같아요. GeLU와 SiLU와 같은 non-ReLU 계열들이 더 빠른 convergence를 가지고 성능 측면에서도 좋다는 결과들이 많이 등장했기 때문입니다.


그러나 이 논문에서는 scaling law에서 얘기하는 바처럼 충분히 많은 데이터로 큰 모델을 학습할 때는 activation function의 종류는 큰 영향을 주지 못한다고 말합니다. 실제로 OPT 1.3B에 대해 학습해보았을 때, ReLU, GeLU, SiLU에 대해 다 비슷비슷한 성능을 보였어요.


ReLU는 non-ReLU 계열들과 다르게 activation sparsity가 높습니다. pre-activation value가 음수면 모두 0으로 보내버리니 당연하겠죠? activation sparsity가 높으면 학습 및 추론에서 연산량을 줄일 수 있기 때문에 효율적입니다.


따라서 저자들은 성능도 비슷한데 효율적인 ReLU를 쓰는게 어떻냐고 제안했고 그 제안이 충분히 합리적이었기 때문에 oral accept을 받았다고 생각합니다. 논문에는 ReLU로 pre-train 되지 않은 모델들은 어떻게 ReLU를 사용하게 할지도 자세히 설명해주니 한번 읽어보시길 추천드려요!


오늘 모델 학습할 때는 ReLU 한잔 어떠실까요?


논문 링크: https://arxiv.org/abs/2310.04564

ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models

arXiv.org

ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 6월 28일 오후 12:01

댓글 0