[1025]모두에게 전하는 모두연 AI뉴스!

  • Inf-CL: GPU 메모리 한계를 뛰어넘는 대규모 대조 학습의 혁신

이 논문에서는 대조 학습에서 배치 크기를 조정할 때 GPU 메모리 병목 현상을 해결하기 위해 Inf-CL이라는 새로운 접근 방식을 제안합니다. Inf-CL은 유사성 행렬의 전체 인스턴스화로 인해 발생하는 2차 메모리 소비를 극복하기 위해 계산을 더 작은 블록으로 분할하는 타일 기반 계산 전략을 사용합니다. 또한 동기화를 최적화하고 I/O 오버헤드를 최소화하기 위해 링 기반 통신과 융합 커널을 활용하는 다단계 타일링 전략을 도입했습니다. 실험 결과, Inf-CL은 정확도나 훈련 속도를 저하시키지 않으면서 대조 손실 배치 크기를 전례 없는 수준으로 조정할 수 있습니다. 이 접근 방식은 대규모 대조 학습에서 상당한 발전을 이루었으며 자기 지도 학습 및 고밀도 텍스트 검색과 같은 분야의 추가 개발에 도움이 될 수 있습니다.


https://arxiv.org/pdf/2410.17243


  • ScaleQuest: LLM 추론 능력의 비밀 병기, 데이터 합성의 새로운 패러다임!

이 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 데이터 합성 방법인 ScaleQuest를 제안합니다. ScaleQuest는 기존 방법과 달리 시드 데이터나 복잡한 증강 제약 없이 소규모 오픈 소스 모델을 사용하여 처음부터 질문을 생성합니다. 이 방법을 사용하여 100만 개의 문제-해답 쌍으로 구성된 수학적 추론 데이터셋을 구축했으며, 이는 기존 오픈 소스 데이터셋보다 효과적으로 Mistral, Llama3, DeepSeekMath, Qwen2-Math와 같은 주요 오픈 소스 모델의 성능을 29.2%에서 46.4%까지 향상시켰습니다. 특히, Qwen2-Math-7B-Base 모델을 이 데이터셋으로 미세 조정하면 GPT-4-Turbo 및 Claude-3.5 Sonnet과 같은 독점 모델뿐만 아니라 강력한 Qwen2-Math-7B-Instruct 모델도 능가하는 결과를 얻었습니다. ScaleQuest는 저비용으로 고품질 추론 데이터를 대규모로 생성할 수 있는 효율적인 방법을 제공하며, LLM의 추론 능력을 향상시키는 데 크게 기여할 수 있습니다.


https://arxiv.org/pdf/2410.18693


[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정! AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 10월 25일 오전 5:59

댓글 0