[230926] 모두의연구소가 전하는 “모두를 위한 AI 뉴스”
모두의연구소는 함께 공유하고 성장하는 국내 최대 AI 커뮤니티입니다. 그럼, 오늘의 AI 뉴스 시작해 볼게요! 1️⃣ [LongLoRA : LLM의 컨텍스트 확장을 위한 fine-tuning 기법] LLM의 긴 컨텍스트 훈련은 많은 계산 비용과 GPU 리소스를 필요로 합니다. 이 논문은 LLM의 컨텍스트 확장 속도를 향상시키는 방법을 두 가지 제시합니다. 첫째, 시프트 쇼트 어텐션을 통해 계산 비용을 절약하면서 바닐라 어텐션과 유사한 성능을 달성합니다. 둘째, 컨텍스트 확장을 위한 매개변수 효율적 미세 조정 체제인 LongLoRA가 학습 가능한 임베딩과 정규화로 잘 작동한다는 것을 발견했습니다. LongLoRA는 LLaMA2 모델에서 높은 성능을 보이며 기존 기술과 호환됩니다. 이를 위해 LongQA라는 미세 조정 데이터 세트를 수집하였고, 이 데이터 세트는 3,000개의 긴 문맥 질문-답변 쌍을 포함하고 있습니다. https://huggingface.co/papers/2309.12307 2️⃣ [비전 영역에서의 RetNet 기반 RMT 모델 연구] 트랜스포머는 자연어 처리에서 시작하여 컴퓨터 비전 영역에서 성공을 거두었지만, 최근 RetNet이 뜨거운 관심을 받고 있습니다. 이 연구에서는 RetNet의 아이디어를 비전에 적용하는 RMT를 제안하였습니다. RMT는 비전 백본에 감쇠를 도입하여 공간 거리에 대한 사전 지식을 모델에 통합하고, 계산 비용을 줄이기 위해 글로벌 모델링을 두 좌표축을 따라 분해합니다. 실험 결과 RMT는 ImageNet-1k에서 4.5G FLOP으로 84.1%의 Top1-acc를 달성하였으며, 여러 컴퓨터 비전 작업에서 뛰어난 성능을 보였습니다. 이 연구는 아직 진행 중입니다. https://huggingface.co/papers/2309.11523 3️⃣[ALMA: 번역에 특화된 생성적 대규모 언어 모델의 미세 조정] 생성적 대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 큰 발전을 보였지만, 번역 분야에서는 중간 크기의 모델이 기존의 인코더-디코더 번역 모델보다 뒤떨어졌습니다. 이 연구는 병렬 데이터에 의존하지 않고 번역에 특화된 LLM 미세 조정 방식을 제안합니다. 이 방법은 두 단계의 미세 조정을 거치며, 이를 통해 생성된 언어 모델을 ALMA라고 합니다. LLaMA-2를 기반으로 한 ALMA는 여러 테스트 데이터에서 중요한 성능 개선을 보였으며, 이전 연구와 다른 모델보다 훨씬 뛰어난 결과를 보였습니다. 이 연구는 기계 번역의 새로운 학습 방법을 제시합니다. https://huggingface.co/papers/2309.11674 — 🥇 K-디지털 트레이닝 훈련기관 최초! '대통령 표창' 수상한 모두의연구소의 AI학교 아이펠 입학하기 → https://bit.ly/3YDkLV4