Kimjeongeun

모두의연구소 아이펠캠퍼스 퍼실리테이터

[0428]모두에게 전하는 모두연 AI뉴스!

다항식 아키텍처와 고정밀 훈련: 경사하강법을 기계 정밀도로 배우는 시퀀스 모델

이 논문은 시퀀스 모델이 최소제곱 문제에 대한 경사 하강법(GD) 같은 수치 알고리즘을 학습할 수 있는지, 특히 기계 정밀도와 수치적 일반성이라는 두 가지 기준을 충족할 수 있는지 탐구합니다.기존 트랜스포머는 이 기준을 만족하지 못하는데, 이는 소프트맥스 어텐션이 고정밀 곱셈을 정확히 표현하기 어렵기 때문임을 밝힙니다. 대안으로, 다항식으로만 구성된 아키텍처가 고정밀 GD 반복을 효율적으로 표현할 수 있음을 보입니다. 또한, 학습 중 정밀도 병목 현상(주로 확률적 경사 노이즈)을 해결하기 위해 적응형 학습률 스케줄러와 옵티마이저 업데이트에 대한 EMA를 적용하는 고정밀 학습 레시피를 제안합니다. 이 레시피를 통해 처음으로 GD 반복을 기계 정밀도에 가깝게(10−13 MSE) 학습시키는 데 성공했으며, 이는 기존 트랜스포머보다 훨씬 우수한 정밀도와 일반성을 보여줍니다.

https://arxiv.org/abs/2503.12295

비용 5.7배↓ 성능 98%↑: MINIONS, 작업 분해 통한 효율적 LM 협업

이 논문은 기기 내 소형 언어 모델(LM)과 클라우드 기반 대형 LM 간의 협업을 통해 데이터 집약적인 작업의 추론 비용을 절감하면서 성능을 유지하는 방안을 연구합니다. 먼저, 두 모델이 단순히 대화하는 MINION 프로토콜은 원격 모델 비용을 30.4배 절감하지만, 성능은 원격 모델 단독 사용 대비 87% 수준에 그칩니다. 이는 소형 모델이 복잡한 지침 수행과 장문맥(long context) 추론에 어려움을 겪기 때문입니다. 이를 개선하기 위해 제안된 MINIONS 프로토콜은 원격 모델이 작업을 더 쉬운 하위 작업으로 분해하여 기기 내 모델이 병렬 처리하도록 합니다. MINIONS는 원격 모델 단독 사용 대비 97.9%의 성능을 유지하며 비용을 5.7배 절감하는 효과를 보였습니다. 논문은 모델 선택, 병렬 처리 규모, 통신 횟수 등 다양한 설계 요소가 비용과 성능 간의 균형에 미치는 영향을 분석합니다.

https://arxiv.org/abs/2502.15964

Towards Learning High-Precision Least Squares Algorithms with Sequence Models

arXiv.org

다음 내용이 궁금하다면?

이미 회원이신가요?

2025년 4월 28일 오전 6:06

함께 읽은 게시물

골빈해커

Chief Maker

7월 28일

앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코드를 주고 설명을 하라는 것이 유효할 것이다.

내 경우는 이미 그렇게 하고 있는데, 요구사항을 주고 개발을 요청. 결과물이 요구사항대로 개발이 잘 되었다면, 다음 단계로 제출한 코드를 리뷰하며 설명을 요청한다.

•

댓글 2 • 저장 21 • 조회 3,542

골빈해커

Chief Maker

2일 전

나는 종종 생산성을 올리기 위한 각종 개발 툴은 물론, 라이브러리나 소스 코드를 구매하기도 한다.

소스 코드의 경우 실제로 써먹지 못하는 경우도 상당수 되긴 하지만, 그래도 구성이나 코드를 보면서 배우는게 있기 때문에 학습 비용이라고 생각하고 가끔 구매하는 편이다.

저장 3 • 조회 1,487

데이터리안

Data Analyst

하루 전

데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

데

- YouTube

www.youtube.com

저장 4 • 조회 504

장홍석

스페이스오디티 부대표/CPO

하루 전

< 보여서 걷는 게 아니라, 걷다 보니 길 >

댓글 1 • 저장 3 • 조회 627

주간 인기 TOP 10

골빈해커 Chief Maker

오늘의 탐라는 “ChatGPT 쓰셨던데 그러고도 개발자입니까?”

김의중 프론트엔드 개발자

Claude Code 실전 가이드: AI 네이티브 개발자로 가는

Arawn Park Senior Engineer & Engineering Lead

넷플릭스는 왜 WebFlux를 사용하지 않을까?

psmon 블룸에이아이 서버 엔지니어

카프카를 우아하게 사용하기 -코틀린편

달레 Apollo GraphQL Software Engineer

알아 알아 알아! 🤣

장홍석 스페이스오디티 부대표/CPO

< 몇 번 졌는지는 중요하지 않다, 인생은 결국 득실차다 >

황경찬(Boaz) P.E.C CEO

"AI가 코드를 짜는 시대, 개발자의 가치는 무엇일까요?" 최근

정종윤 네이버 프론트엔드 개발자

👻 클라이언트에서 안전한 소셜 로그인 구현을 위한 OIDC와 PK

박승규 카카오계열사에서 이것저것 만드는 개발자

책이 출판되기 전 마지막 교정을 하고 있는데... GPT5가 출시

석민 커리어 코치

백엔드 개발자 이력서 고민

[0428]모두에게 전하는 모두연 AI뉴스!

댓글 0

함께 읽은 게시물

데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

< 보여서 걷는 게 아니라, 걷다 보니 길 >

주간 인기 TOP 10

추천 프로필