Towards Learning High-Precision Least Squares Algorithms with Sequence Models
arXiv.org
다항식 아키텍처와 고정밀 훈련: 경사하강법을 기계 정밀도로 배우는 시퀀스 모델
이 논문은 시퀀스 모델이 최소제곱 문제에 대한 경사 하강법(GD) 같은 수치 알고리즘을 학습할 수 있는지, 특히 기계 정밀도와 수치적 일반성이라는 두 가지 기준을 충족할 수 있는지 탐구합니다.기존 트랜스포머는 이 기준을 만족하지 못하는데, 이는 소프트맥스 어텐션이 고정밀 곱셈을 정확히 표현하기 어렵기 때문임을 밝힙니다. 대안으로, 다항식으로만 구성된 아키텍처가 고정밀 GD 반복을 효율적으로 표현할 수 있음을 보입니다. 또한, 학습 중 정밀도 병목 현상(주로 확률적 경사 노이즈)을 해결하기 위해 적응형 학습률 스케줄러와 옵티마이저 업데이트에 대한 EMA를 적용하는 고정밀 학습 레시피를 제안합니다. 이 레시피를 통해 처음으로 GD 반복을 기계 정밀도에 가깝게(10−13 MSE) 학습시키는 데 성공했으며, 이는 기존 트랜스포머보다 훨씬 우수한 정밀도와 일반성을 보여줍니다.
https://arxiv.org/abs/2503.12295
비용 5.7배↓ 성능 98%↑: MINIONS, 작업 분해 통한 효율적 LM 협업
이 논문은 기기 내 소형 언어 모델(LM)과 클라우드 기반 대형 LM 간의 협업을 통해 데이터 집약적인 작업의 추론 비용을 절감하면서 성능을 유지하는 방안을 연구합니다. 먼저, 두 모델이 단순히 대화하는 MINION 프로토콜은 원격 모델 비용을 30.4배 절감하지만, 성능은 원격 모델 단독 사용 대비 87% 수준에 그칩니다. 이는 소형 모델이 복잡한 지침 수행과 장문맥(long context) 추론에 어려움을 겪기 때문입니다. 이를 개선하기 위해 제안된 MINIONS 프로토콜은 원격 모델이 작업을 더 쉬운 하위 작업으로 분해하여 기기 내 모델이 병렬 처리하도록 합니다. MINIONS는 원격 모델 단독 사용 대비 97.9%의 성능을 유지하며 비용을 5.7배 절감하는 효과를 보였습니다. 논문은 모델 선택, 병렬 처리 규모, 통신 횟수 등 다양한 설계 요소가 비용과 성능 간의 균형에 미치는 영향을 분석합니다.
https://arxiv.org/abs/2502.15964
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 28일 오전 6:06
태초에 모든 동물은 바다에서 살았다. 바다가 동물이 살기 좋은 환경이었던 것이다. 그런데, 동물 사이에 먹이 사슬이 형성되었고, 힘이 없는 동물들은 척박한 곳으로 밀려났다. 그곳이 바로 강이다. 처음에는 강에서 살기 힘들었지만, 성공적으로 적응하는 동물들이 생겨났고, 그래서 강에도 생태계가 형성되었다.
... 더 보기안
... 더 보기