[1002]모두에게 전하는 모두연 AI뉴스!

  • LLM 다이어트, 훈련 없이 성공! - 혁신적인 아키텍처 탐색 프레임워크

이 논문에서는 대규모 언어 모델(LLM)의 효율성을 높이기 위해 훈련 없는 아키텍처 탐색 프레임워크를 제안합니다. 기존 모델 압축 기법들이 가중치 최적화에 집중하는 것과 달리, 이 프레임워크는 최적의 서브넷을 찾아 추론 속도를 높이는 데 중점을 둡니다. 먼저 가중치 중요도를 계산하여 적절한 초기 아키텍처를 식별하고, 진화 기반 알고리즘을 통해 효율적인 서브넷을 탐색합니다. 각 세대에서는 마스크 변형 알고리즘을 통해 세밀한 채널 인덱스를 식별하고, 적은 수의 훈련 샘플로 후보 아키텍처를 평가하여 효율성을 높입니다. 또한, 선택되지 않은 가중치를 활용하여 서브넷의 가중치를 교정하는 재구성 알고리즘을 도입하여 성능을 향상시킵니다. 실험 결과, 이 방법은 다양한 데이터셋과 LLM 모델에서 최신 구조 가지치기 기법보다 우수한 성능을 보였으며, GPU 메모리 사용량 감소 및 추론 가속화를 달성했습니다.


https://arxiv.org/abs/2409.17372


  • LLM 훈련 속도, 1.5배 UP! DropBP로 효율적인 딥러닝

이 논문에서는 훈련 과정의 계산 비용을 줄이기 위해 역전파 과정에서 레이어를 무작위로 생략하는 DropBP(Dropping Backward Propagation) 기법을 제안합니다. DropBP는 역전파 시에만 레이어를 생략하여 순전파 과정에서 발생하는 출력 변화를 방지하고, 각 레이어의 민감도를 계산하여 드롭률을 조정함으로써 안정적인 훈련을 보장합니다. DropBP는 풀 파인튜닝 및 파라미터 효율적인 파인튜닝 모두에 적용 가능하며, LLaMA2-70B에서 QLoRA를 사용할 때 훈련 시간을 44% 단축하고 동일한 손실 수준까지의 수렴 속도를 1.5배 향상시키는 등 긍정적인 결과를 보였습니다. 또한, GPU 메모리 사용량을 줄여 훈련 가능한 최대 시퀀스 길이를 6.2배까지 늘릴 수 있었습니다.


https://arxiv.org/abs/2402.17812


AI학교 아이펠에서 최신 AI연구를 완성해보세요! https://bit.ly/3Y0ZO7Q
AI엔지니어 선배팅 : https://forms.gle/d35G1TMSvdFPXFSdA

Search for Efficient Large Language Models

arXiv.org

Search for Efficient Large Language Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 10월 2일 오전 6:28

댓글 0

    함께 읽은 게시물

    2024년 최고의 데이터분석 자격증

    ... 더 보기

    7 Best Data Analytics Certification Options For 2024

    Datamation

    7 Best Data Analytics Certification Options For 2024

     • 

    저장 32 • 조회 2,720


    데이터 분석가로 취업은 했는데 분석은 못하고 쿼리 머신이 되는 것 같아요

    데이터 분석가 취업, 이직, 커리어와 관련된 고민, 걱정 물어볼 곳이 없어 속으로만 삭히고 계신가요? 현업 데이터 분석가 선배들에게 무엇이든 물어보세요. 이 세미나에 관심 있을 것 같은 동료, 친구, 지인이 있다면 세미나 소식을 공유해주세요 :) 세미나 자세히 알아보기 👉 https://bit.ly/3Zn3Yor [ 지금까지 들어온 질문들 ] ✔ 데이터 분석가의 업무 범위는 어느 정도 될까요? ✔ 데이터 분석가가 되기 위해 하셨던 공부는 어떤 것이 있을까요? 도움을 받은 책은 무엇일까요? ✔ 데이터 분석가로 취업... 더 보기

    전략적 입사 지원

    ... 더 보기

     • 

    저장 20 • 조회 1,401


    “직원들에게 월급 외에 출근할 이유를 줘야 합니다. 팀장이 좋다던가, 이 일이 날 성장시킨다던가, 이 일이 좋다던가, 이게 다 여기에 해당합니다.“ 박웅현 TBWA 코리아 조직문화연구소 소장은 직원들을 조직에 남게하는 방법을 이렇게 제안했다.

    ... 더 보기

    박웅현 TBWA 조직문화연구소장 "모든 직원은 고객, '회사 팬' 만들어야" [뉴시스 포럼-10년후 한국]

    뉴시스

    박웅현 TBWA 조직문화연구소장 "모든 직원은 고객, '회사 팬' 만들어야" [뉴시스 포럼-10년후 한국]

    데이터 이야기 #4: 기본 데이터 직군 - 데이터 분석가

    앞서 포스팅에서는 데이터 팀의 목적이 무엇이고 어떻게 가치를 생성하는지 이야기해보았다. 이번 포스팅에서는 기본 데이터 직군이라 할 수 있는 데이터 엔지니어, 데이터 분석가, 데이터 과학자에 대해 이야기해보고자 한다.

    ... 더 보기

    6월 초, 새로운 바이브 코딩과 SW 개발의 전환의 시대

    ... 더 보기

    2025년 2분기 AI 세미나

    55check.imweb.me

    2025년 2분기 AI 세미나