Kimjeongeun

모두의연구소 아이펠캠퍼스 퍼실리테이터

[0731]모두에게 전하는 모두연 AI뉴스!

요슈아 벤지오, 어려운 수학문제 데이터셋을 AI로 만드는 기법 소개

현재 LLM 훈련은 수학적 추론을 핵심 능력으로 자리매김하고 있습니다. 공개적으로 이용 가능한 자원이 모두 활용된 상황에서, 다양하고 도전적인 수학 문제에 대한 충족되지 않은 수요가 있습니다. 인간 전문가에만 의존하는 것은 시간과 비용이 많이 들고, LLM이 생성한 문제는 종종 필요한 다양성과 난이도가 부족합니다. 이에, 요슈아 벤지오가 참여한 Quebec AI Institute와 대학교 연합 연구진이 LLM의 강점과 인간 참여 접근 방식을 결합하여 다양한 도전적 수학 문제를 생성하는 설계 프레임워크를 제시하였습니다. 기존 수학 데이터셋에서 핵심 "기술"을 추출 후, 문제에서 활용해야 할 무작위 핵심 기술 쌍으로 LLM에 프롬프트를 제시함으로써 새롭고 어려운 문제를 생성하는 기반이 됩니다. 다중 턴 프롬프팅을 통해 문제와 해답을 반복적으로 생성하고 개선 후, 인간 주석자들이 문제를 검증하고 추가로 개선하며, LLM과의 추가 상호작용을 통해 그들의 효율성이 향상됩니다. 연구자들은 MATH 데이터셋을 기반으로, MATH2 - 더 높은 품질의 수학 문제 데이터셋을 생성하였으며, MATH 벤치마크와 모델 수행 결과 비교를 통해 프레임워크의 우수성을 증명하였습니다

https://arxiv.org/pdf/2407.21009

어텐션 메커니즘의 효율적인 메모리 사용을 위한 Pruning 기법, ThinK

대규모 언어 모델(LLM)은 자연어 처리 분야에 혁명을 일으켰습니다. 모델 크기와 시퀀스 길이를 늘려 다양한 응용 분야에서 전례 없는 성능을 달성했습니다. 그러나 이에 따라 계산 및 메모리 비용이 증가하였습니다. 특히 트랜스포머 어텐션 메커니즘의 2차 복잡도로 인해, 긴 시퀀스의 관리가 용이하지 않았습니다. 본 논문은 긴 컨텍스트 시나리오에 초점을 맞추어, 추론 과정에서 KV 캐시 메모리 소비의 비효율성을 다룹니다. 시퀀스 길이를 기반으로 메모리를 최적화하는 기존 접근법과 달리, 연구자들은 KV 캐시의 채널 차원에 상당한 중복성이 있음을 발견했습니다. 이는 불균형한 크기 분포와 어텐션 가중치의 저차원 구조로 특징지어집니다. 이러한 관찰을 바탕으로, 어텐션 가중치 손실을 최소화하면서 가장 중요도가 낮은 채널을 선택적으로 제거하도록 설계된 새로운 쿼리 의존적 KV 캐시 가지치기 기법, ThinK가 소개되었습니다. 모델 정확도를 유지하거나 향상시킬 뿐만 아니라, 기존의 KV 캐시 축출 방법에 비해 20% 이상의 메모리 비용 감소를 달성합니다. LLaMA3와 Mistral 모델을 다양한 긴 시퀀스 데이터셋에서 광범위하게 평가한 결과, ThinK의 효과를 확인했으며, 성능을 저하시키지 않으면서 효율적인 LLM 배포의 새로운 선례를 세웠습니다.

https://arxiv.org/pdf/2407.21018

[마감임박!] AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 : https://bit.ly/4ePP8iK

MAmmoTH 4-shot CoT

arXiv.org

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 7월 31일 오전 6:41

함께 읽은 게시물

데이터리안

Data Analyst

2일 전

데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

데

- YouTube

www.youtube.com

저장 4 • 조회 903

골빈해커

Chief Maker

19시간 전

그러고보니, 예전에는 입사 지원서에 희망연봉란이 있었는데 언젠가부터 사라졌네요. 왜 없어진걸까요? 제일 중요한건데…

채용과정은 지원자나 회사입장에서나 엄청난 시간과 노력이 드는거라, 합격했는데 연봉 수준이 안맞아서 취소되면 그 앞의 노력이 얼마나 허무한디…

댓글 1 • 조회 693

비슷한 게시물

골빈해커 Chief Maker

System 1, 2 사고를 간단하게 말하면 지식의 탐색과 논리의 탐색으로 나눈다고 할 수 있는데, LLM도 마찬가지로 Base model로 결과를 출력하는 것은 지식의 탐색이고

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[1002]모두에게 전하는 모두연 AI뉴스!

이병헌 프롬프트 엔지니어

https://arxiv.org/pdf/2310.08754.pdf

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0221]모두에게 전하는 모두연 AI뉴스!

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[1226]모두에게 전하는 모두연 AI뉴스!

골빈해커 Chief Maker

프로그래머로써의 커리어를 거치면서 한계에 부딪혔던 때가 두 번 있었는데, 첫번째는 공간축(z)을 다뤄야 할 때, 두번째는 시간축을 다뤄야 할 때였다. 그리고 지금 생각하면 둘 다

주간 인기 TOP 10

골빈해커 Chief Maker

오늘의 탐라는 “ChatGPT 쓰셨던데 그러고도 개발자입니까?”

김의중 프론트엔드 개발자

Claude Code 실전 가이드: AI 네이티브 개발자로 가는

Arawn Park Senior Engineer & Engineering Lead

넷플릭스는 왜 WebFlux를 사용하지 않을까?

psmon 블룸에이아이 서버 엔지니어

카프카를 우아하게 사용하기 -코틀린편

달레 Apollo GraphQL Software Engineer

알아 알아 알아! 🤣

장홍석 스페이스오디티 부대표/CPO

< 몇 번 졌는지는 중요하지 않다, 인생은 결국 득실차다 >

황경찬(Boaz) P.E.C CEO

"AI가 코드를 짜는 시대, 개발자의 가치는 무엇일까요?" 최근

정종윤 네이버 프론트엔드 개발자

👻 클라이언트에서 안전한 소셜 로그인 구현을 위한 OIDC와 PK

박승규 카카오계열사에서 이것저것 만드는 개발자

책이 출판되기 전 마지막 교정을 하고 있는데... GPT5가 출시

석민 커리어 코치

백엔드 개발자 이력서 고민

[0731]모두에게 전하는 모두연 AI뉴스!

댓글 0

함께 읽은 게시물

데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

비슷한 게시물

주간 인기 TOP 10

추천 프로필