Towards Learning High-Precision Least Squares Algorithms with Sequence Models
arXiv.org
다항식 아키텍처와 고정밀 훈련: 경사하강법을 기계 정밀도로 배우는 시퀀스 모델
이 논문은 시퀀스 모델이 최소제곱 문제에 대한 경사 하강법(GD) 같은 수치 알고리즘을 학습할 수 있는지, 특히 기계 정밀도와 수치적 일반성이라는 두 가지 기준을 충족할 수 있는지 탐구합니다.기존 트랜스포머는 이 기준을 만족하지 못하는데, 이는 소프트맥스 어텐션이 고정밀 곱셈을 정확히 표현하기 어렵기 때문임을 밝힙니다. 대안으로, 다항식으로만 구성된 아키텍처가 고정밀 GD 반복을 효율적으로 표현할 수 있음을 보입니다. 또한, 학습 중 정밀도 병목 현상(주로 확률적 경사 노이즈)을 해결하기 위해 적응형 학습률 스케줄러와 옵티마이저 업데이트에 대한 EMA를 적용하는 고정밀 학습 레시피를 제안합니다. 이 레시피를 통해 처음으로 GD 반복을 기계 정밀도에 가깝게(10−13 MSE) 학습시키는 데 성공했으며, 이는 기존 트랜스포머보다 훨씬 우수한 정밀도와 일반성을 보여줍니다.
https://arxiv.org/abs/2503.12295
비용 5.7배↓ 성능 98%↑: MINIONS, 작업 분해 통한 효율적 LM 협업
이 논문은 기기 내 소형 언어 모델(LM)과 클라우드 기반 대형 LM 간의 협업을 통해 데이터 집약적인 작업의 추론 비용을 절감하면서 성능을 유지하는 방안을 연구합니다. 먼저, 두 모델이 단순히 대화하는 MINION 프로토콜은 원격 모델 비용을 30.4배 절감하지만, 성능은 원격 모델 단독 사용 대비 87% 수준에 그칩니다. 이는 소형 모델이 복잡한 지침 수행과 장문맥(long context) 추론에 어려움을 겪기 때문입니다. 이를 개선하기 위해 제안된 MINIONS 프로토콜은 원격 모델이 작업을 더 쉬운 하위 작업으로 분해하여 기기 내 모델이 병렬 처리하도록 합니다. MINIONS는 원격 모델 단독 사용 대비 97.9%의 성능을 유지하며 비용을 5.7배 절감하는 효과를 보였습니다. 논문은 모델 선택, 병렬 처리 규모, 통신 횟수 등 다양한 설계 요소가 비용과 성능 간의 균형에 미치는 영향을 분석합니다.
https://arxiv.org/abs/2502.15964
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 28일 오전 6:06
앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코드를 주고 설명을 하라는 것이 유효할 것이다.
내 경우는 이미 그렇게 하고 있는데, 요구사항을 주고 개발을 요청. 결과물이 요구사항대로 개발이 잘 되었다면, 다음 단계로 제출한 코드를 리뷰하며 설명을 요청한다.
나는 종종 생산성을 올리기 위한 각종 개발 툴은 물론, 라이브러리나 소스 코드를 구매하기도 한다.
소스 코드의 경우 실제로 써먹지 못하는 경우도 상당수 되긴 하지만, 그래도 구성이나 코드를 보면서 배우는게 있기 때문에 학습 비용이라고 생각하고 가끔 구매하는 편이다.