[1002]모두에게 전하는 모두연 AI뉴스!

LLM 다이어트, 훈련 없이 성공! - 혁신적인 아키텍처 탐색 프레임워크

이 논문에서는 대규모 언어 모델(LLM)의 효율성을 높이기 위해 훈련 없는 아키텍처 탐색 프레임워크를 제안합니다. 기존 모델 압축 기법들이 가중치 최적화에 집중하는 것과 달리, 이 프레임워크는 최적의 서브넷을 찾아 추론 속도를 높이는 데 중점을 둡니다. 먼저 가중치 중요도를 계산하여 적절한 초기 아키텍처를 식별하고, 진화 기반 알고리즘을 통해 효율적인 서브넷을 탐색합니다. 각 세대에서는 마스크 변형 알고리즘을 통해 세밀한 채널 인덱스를 식별하고, 적은 수의 훈련 샘플로 후보 아키텍처를 평가하여 효율성을 높입니다. 또한, 선택되지 않은 가중치를 활용하여 서브넷의 가중치를 교정하는 재구성 알고리즘을 도입하여 성능을 향상시킵니다. 실험 결과, 이 방법은 다양한 데이터셋과 LLM 모델에서 최신 구조 가지치기 기법보다 우수한 성능을 보였으며, GPU 메모리 사용량 감소 및 추론 가속화를 달성했습니다.

https://arxiv.org/abs/2409.17372

LLM 훈련 속도, 1.5배 UP! DropBP로 효율적인 딥러닝

이 논문에서는 훈련 과정의 계산 비용을 줄이기 위해 역전파 과정에서 레이어를 무작위로 생략하는 DropBP(Dropping Backward Propagation) 기법을 제안합니다. DropBP는 역전파 시에만 레이어를 생략하여 순전파 과정에서 발생하는 출력 변화를 방지하고, 각 레이어의 민감도를 계산하여 드롭률을 조정함으로써 안정적인 훈련을 보장합니다. DropBP는 풀 파인튜닝 및 파라미터 효율적인 파인튜닝 모두에 적용 가능하며, LLaMA2-70B에서 QLoRA를 사용할 때 훈련 시간을 44% 단축하고 동일한 손실 수준까지의 수렴 속도를 1.5배 향상시키는 등 긍정적인 결과를 보였습니다. 또한, GPU 메모리 사용량을 줄여 훈련 가능한 최대 시퀀스 길이를 6.2배까지 늘릴 수 있었습니다.

https://arxiv.org/abs/2402.17812

AI학교 아이펠에서 최신 AI연구를 완성해보세요! https://bit.ly/3Y0ZO7Q
AI엔지니어 선배팅 : https://forms.gle/d35G1TMSvdFPXFSdA

Search for Efficient Large Language Models

arXiv.org

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 10월 2일 오전 6:28

비슷한 게시물

주간 인기 TOP 10

달레 Apollo GraphQL Software Engineer

야근의 관성

변성윤 머신러닝 엔지니어, Engineering Manager

무신사의 대용량 트래픽 경험기

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

기초 프로그래밍을 좀 더 열심히 공부할 걸..

진용진 Product manager

디자인 컴포넌트 기반 AI 프로토타이핑

황경찬(Boaz) P.E.C CEO

AI와 코딩할 때, 혹시 결과만 말하고 계신가요? 얼마 전 프로필

장홍석 스페이스오디티 부대표/CPO

< 인생을 바꾸는 ‘큰 돌멩이’의 법칙 >

이원형 라인플러스 소프트웨어 엔지니어

Gemini CLI가 무료라길래 주말에 사용해봤습니다. 기존에

psmon 웹노리라이터

DDD와 액터모델

골빈해커 Chief Maker

(웹)프론트엔드 개발이 쉬워보인다면 CSS나 WebGL 차력쇼나

레드버스백맨 리서처 앤 라이터

⟪트레바리 <리서치 하는데요> 6번째 시즌을 오픈합니다⟫

[1002]모두에게 전하는 모두연 AI뉴스!

댓글 0

비슷한 게시물

주간 인기 TOP 10

추천 프로필