[1220]모두에게 전하는 모두연 AI뉴스!

  • 딥러닝 학습의 혁신: SGD-Sal, AdamW를 능가하다!

이 논문에서는 딥러닝 모델 학습에 있어 적응형 그래디언트 방식의 필요성에 의문을 제기하며, SGD-Sal이라는 새로운 최적화 기법을 제안합니다. SGD-Sal은 초기화 단계에서 그래디언트 신호 대 잡음 비율(g-SNR)에 따라 학습률을 조정하는 방식으로, AdamW와 비교하여 메모리 사용량을 절반으로 줄이고 다양한 Transformer 기반 작업에서 동등하거나 더 나은 성능을 보입니다. ViT 및 GPT-2 사전 훈련에서 뛰어난 성능을 입증했으며, 하이퍼파라미터 변화에 대한 강건성을 보여줍니다. 또한, LLM 및 Diffusion 모델의 LoRA 미세 조정과 같은 작업에서도 최첨단 최적화 기법보다 뛰어난 성능을 발휘합니다. 메모리 효율성 측면에서 SGD-Sal은 최적화 상태에 대한 메모리 사용량을 크게 줄여 GPT-2의 경우 5.93GB, Llama2-7B의 경우 25.15GB를 AdamW에 비해 절약합니다.


https://huggingface.co/papers/2412.11768


  • 알리바바, 더 강력해진 LLM 'Qwen2.5' 시리즈 출시!

알리바바에서 다양한 요구 사항을 충족하도록 설계된 광범위한 대규모 언어 모델(LLM) 시리즈인 Qwen2.5을 출시했습니다. 사전 훈련 측면에서 고품질 사전 훈련 데이터 세트를 이전 7조 개 토큰에서 18조 개 토큰으로 확장했습니다. 이는 상식, 전문 지식 및 추론 능력에 대한 강력한 기반을 제공합니다. 사후 훈련 측면에서 우리는 100만 개 이상의 샘플을 사용한 복잡한 감독 미세 조정과 오프라인 학습 DPO 및 온라인 학습 GRPO를 포함한 다단계 강화 학습을 구현합니다. 사후 훈련 기술은 인간의 선호도를 크게 향상시키고 긴 텍스트 생성, 구조화된 데이터 분석 및 지침 준수를 크게 개선합니다. 다양하고 다양한 사용 사례를 효과적으로 처리하기 위해 Qwen2.5 LLM 시리즈를 풍부한 구성으로 제공합니다. 공개 가중치 제품에는 0.5B, 1.5B, 3B, 7B, 14B, 32B 및 72B 매개변수 크기의 기본 모델과 지침 조정 모델이 포함됩니다.


https://huggingface.co/papers/2412.15115


[아이펠 12기] 2024 마지막 개강
AI 입문부터 활용까지! 코어과정 & 논문으로 완성하는 리서치과정
https://bit.ly/40T8YFx
기술은 기본, 지표 중심 프로젝트를 완성하는 데이터 분석가 과정
https://bit.ly/4g1gvGk

Paper page - No More Adam: Learning Rate Scaling at Initialization is All You Need

huggingface.co

Paper page - No More Adam: Learning Rate Scaling at Initialization is All You Need

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 12월 20일 오전 7:13

댓글 0