[0428]모두에게 전하는 모두연 AI뉴스!
* 다항식 아키텍처와 고정밀 훈련: 경사하강법을 기계 정밀도로 배우는 시퀀스 모델 이 논문은 시퀀스 모델이 최소제곱 문제에 대한 경사 하강법(GD) 같은 수치 알고리즘을 학습할 수 있는지, 특히 기계 정밀도와 수치적 일반성이라는 두 가지 기준을 충족할 수 있는지 탐구합니다.기존 트랜스포머는 이 기준을 만족하지 못하는데, 이는 소프트맥스 어텐션이 고정밀 곱셈을 정확히 표현하기 어렵기 때문임을 밝힙니다. 대안으로, 다항식으로만 구성된 아키텍처가 고정밀 GD 반복을 효율적으로 표현할 수 있음을 보입니다. 또한, 학습 중 정밀도 병목 현상(주로 확률적 경사 노이즈)을 해결하기 위해 적응형 학습률 스케줄러와 옵티마이저 업데이트에 대한 EMA를 적용하는 고정밀 학습 레시피를 제안합니다. 이 레시피를 통해 처음으로 GD 반복을 기계 정밀도에 가깝게(10−13 MSE) 학습시키는 데 성공했으며, 이는 기존 트랜스포머보다 훨씬 우수한 정밀도와 일반성을 보여줍니다. https://arxiv.org/abs/2503.12295 * 비용 5.7배↓ 성능 98%↑: MINIONS, 작업 분해 통한 효율적 LM 협업 이 논문은 기기 내 소형 언어 모델(LM)과 클라우드 기반 대형 LM 간의 협업을 통해 데이터 집약적인 작업의 추론 비용을 절감하면서 성능을 유지하는 방안을 연구합니다. 먼저, 두 모델이 단순히 대화하는 MINION 프로토콜은 원격 모델 비용을 30.4배 절감하지만, 성능은 원격 모델 단독 사용 대비 87% 수준에 그칩니다. 이는 소형 모델이 복잡한 지침 수행과 장문맥(long context) 추론에 어려움을 겪기 때문입니다. 이를 개선하기 위해 제안된 MINIONS 프로토콜은 원격 모델이 작업을 더 쉬운 하위 작업으로 분해하여 기기 내 모델이 병렬 처리하도록 합니다. MINIONS는 원격 모델 단독 사용 대비 97.9%의 성능을 유지하며 비용을 5.7배 절감하는 효과를 보였습니다. 논문은 모델 선택, 병렬 처리 규모, 통신 횟수 등 다양한 설계 요소가 비용과 성능 간의 균형에 미치는 영향을 분석합니다. https://arxiv.org/abs/2502.15964