[0731]모두에게 전하는 모두연 AI뉴스!

  • 요슈아 벤지오, 어려운 수학문제 데이터셋을 AI로 만드는 기법 소개

현재 LLM 훈련은 수학적 추론을 핵심 능력으로 자리매김하고 있습니다. 공개적으로 이용 가능한 자원이 모두 활용된 상황에서, 다양하고 도전적인 수학 문제에 대한 충족되지 않은 수요가 있습니다. 인간 전문가에만 의존하는 것은 시간과 비용이 많이 들고, LLM이 생성한 문제는 종종 필요한 다양성과 난이도가 부족합니다. 이에, 요슈아 벤지오가 참여한 Quebec AI Institute와 대학교 연합 연구진이 LLM의 강점과 인간 참여 접근 방식을 결합하여 다양한 도전적 수학 문제를 생성하는 설계 프레임워크를 제시하였습니다. 기존 수학 데이터셋에서 핵심 "기술"을 추출 후, 문제에서 활용해야 할 무작위 핵심 기술 쌍으로 LLM에 프롬프트를 제시함으로써 새롭고 어려운 문제를 생성하는 기반이 됩니다. 다중 턴 프롬프팅을 통해 문제와 해답을 반복적으로 생성하고 개선 후, 인간 주석자들이 문제를 검증하고 추가로 개선하며, LLM과의 추가 상호작용을 통해 그들의 효율성이 향상됩니다. 연구자들은 MATH 데이터셋을 기반으로, MATH2 - 더 높은 품질의 수학 문제 데이터셋을 생성하였으며, MATH 벤치마크와 모델 수행 결과 비교를 통해 프레임워크의 우수성을 증명하였습니다


https://arxiv.org/pdf/2407.21009


  • 어텐션 메커니즘의 효율적인 메모리 사용을 위한 Pruning 기법, ThinK

대규모 언어 모델(LLM)은 자연어 처리 분야에 혁명을 일으켰습니다. 모델 크기와 시퀀스 길이를 늘려 다양한 응용 분야에서 전례 없는 성능을 달성했습니다. 그러나 이에 따라 계산 및 메모리 비용이 증가하였습니다. 특히 트랜스포머 어텐션 메커니즘의 2차 복잡도로 인해, 긴 시퀀스의 관리가 용이하지 않았습니다. 본 논문은 긴 컨텍스트 시나리오에 초점을 맞추어, 추론 과정에서 KV 캐시 메모리 소비의 비효율성을 다룹니다. 시퀀스 길이를 기반으로 메모리를 최적화하는 기존 접근법과 달리, 연구자들은 KV 캐시의 채널 차원에 상당한 중복성이 있음을 발견했습니다. 이는 불균형한 크기 분포와 어텐션 가중치의 저차원 구조로 특징지어집니다. 이러한 관찰을 바탕으로, 어텐션 가중치 손실을 최소화하면서 가장 중요도가 낮은 채널을 선택적으로 제거하도록 설계된 새로운 쿼리 의존적 KV 캐시 가지치기 기법, ThinK가 소개되었습니다. 모델 정확도를 유지하거나 향상시킬 뿐만 아니라, 기존의 KV 캐시 축출 방법에 비해 20% 이상의 메모리 비용 감소를 달성합니다. LLaMA3와 Mistral 모델을 다양한 긴 시퀀스 데이터셋에서 광범위하게 평가한 결과, ThinK의 효과를 확인했으며, 성능을 저하시키지 않으면서 효율적인 LLM 배포의 새로운 선례를 세웠습니다.


https://arxiv.org/pdf/2407.21018


[마감임박!] AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 : https://bit.ly/4ePP8iK

MAmmoTH 4-shot CoT

arXiv.org

MAmmoTH 4-shot CoT

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 7월 31일 오전 6:41

댓글 0

    함께 읽은 게시물

    데이터 분석 자격증 Top 9(+5)

    ... 더 보기

    The top 9 data analytics certifications

    CIO

    The top 9 data analytics certifications

     • 

    저장 20 • 조회 2,128


    아미고(Ameego)의 피드백 중에서 아미고가 불친절😅해서 좋다는 이야기를 꽤 들었는데요.


    UX가 나쁘다는 것이 아니라, 앱이 대부분 영어로만 되어 있고, 대화 중 자막이 없고 턴제가 아닌 실시간 대화 중심인 것을 말합니다.


    ... 더 보기

    조회 1,612


    🚀 [2025 셀프 호스팅 가이드]

    ... 더 보기

    selfh.st - Self-hosted content and software

    selfh.st

    selfh.st - Self-hosted content and software

     • 

    저장 45 • 조회 1,274


    각종 스토리지를 통해 알아 보는 분산 시스템 개념

    1️⃣ Apache Cassandra - 파티션 기반의 Wide Column 저장소 모델을 활용 - multi-master data replication - 높은 가용성(availability)과 low latency를 제공함 - 단일 장애 지점(single point of failure)이 없음 - 궁극적 일관성(eventual consistent) 데이터베이스 - 모든 업데이트는 궁극적으로 레플리카 노드에 도달함 - 궁극적 일관성으로 인해 임시적으로 노드마다 데이터가 다를 수 있음 - Consistent Hashing으로 데... 더 보기

    Fundamentals of Distributed Systems | Baeldung on Computer Science

    Baeldung

    Fundamentals of Distributed Systems | Baeldung on Computer Science

     • 

    저장 72 • 조회 5,885


    데이터 이야기 #6: 기본 데이터 직군 - 데이터 엔지니어

    앞서 포스팅에서는 기본 데이터 직군이라 할 수 있는 데이터 엔지니어, 데이터 분석가, 데이터 과학자 중 먼저 데이터 분석가와 데이터 과학자에 대해서 이야기해보았다. 이번 포스팅에서는 데이터 엔지니어에 대해 이야기해보고자 한다.

    ... 더 보기

     • 

    저장 17 • 조회 3,644


    <🇺🇸 미국 취업 루트?> 미국, 캐나다 근무했던 경험을 바탕으로 취업 루트 몇 가지 알려드립니다 (현재는 미국 정착). 이 포스팅은 몇 가지 옵션을 간단하게 소개하기 위해 공유합니다. 이민 전문 변호사가 아니기 때문에 자세한 정보는 변호사와 상담해보세요. 1️⃣ 미국 대학 졸업 + OPT/OPT STEM EAD 수령 미국 정부에서 인정하는 4년제 대학을 졸업하면 취업할 수 있는 OPT 프로그램을 제공합니다. OPT는 비자가 아니며 취업 권한을 가질 수 있는 프로그램입니다. 문과는 대게 1년이며 이과는 1+2, 총 3년입니다. 문제는 OPT의 경우 기간이 짧고 이 기간 내에 영주권 수령이 거의 불가능하기 때문에 추후 미국 6년짜리 취업 비자인 H1B 스폰서십을 받아야 합니다. OPT는 회사가 스폰서 하는 프로그램이 아니라 학교에서 제공하는 프로그램이라서 이직이 비교적 자유롭고, 해고당하더라도 취업 권한이 사라지지 않고 다른 회사에 다시 취업할 수 있습니다. 굳이 미국 대학이 아니라도 2년 대학원 유학을 통해 OPT/OPT STEM 자격을 얻어서 취업하는 경우도 많습니다. 2️⃣ H1B 회사가 스폰해주는 미국 취업 비자입니다. 총기간은 6년이지만 3년마자 재 신청해서 총 6년까지 받을 수 있습니다. 한국에서 대학을 나오더라도 미국 회사 인터뷰 통과 후 스폰만 해준다면 지원할 수 있습니다. 굳이 미국 대학을 나오지 않아도 됩니다. 문제는 H1B 수령은 하늘의 별따기만큼 어렵습니다. 로또처럼 무작위로 정해진 숫자만큼 뽑는데, 지원자는 3배 이상 많아서 성공률이 33% 이내로 적습니다. 3️⃣ 외국계 취업 후 L1비자로 미국 본사로 이직 캐나다 있을 때 가장 많이 본 케이스입니다. 미국 회사의 외국 지사에 1년 근무하면 L1비자를 스폰받을 수 있습니다. L1수령 후 미국 본사에서 근무 가능합니다. 물론 회사에서 해줘야지만 받을 수 있는 비자이지만 L1은 H1B처럼 정해진 숫자가 있는 게 아니라 서류와 인터뷰 심사만 잘하면 받을 수 있습니다. 코로나 이전에는 3개월에서 6개월이면 수령할 수 있어서 주변의 많은 지인들이 캐나다에서 미국으로 이직했었습니다. 단점이라면 L1은 회사에서 해고당하는 날 바로 한국으로 귀국해야 합니다. L1 기간 중 회사에서 영주권을 스폰해주면 다행이지만, 안 해주고 해고당하면 언제든지 나갈 준비를 해야 하... 더 보기