[0115]모두에게 전하는 모두연 AI뉴스!
* 트랜스포머 아키텍쳐를 대체할 수 있을까? 구글 리서치의 Titans구글 리서치에서 작년 말일에 발표한 모델, Titans가 어제와 오늘간 회자되고 있습니다. Titans는 과거 컨텍스트를 기억하고 현재 컨텍스트에 주목하면서 오래된 과거 정보를 활용하는 데 도움을 주는 새로운 신경망 장기 메모리 모듈, Memory as a Context 아키텍쳐를 차용하였습니다. 이로써 Titan은 빠른 추론을 유지하면서도 병렬화 가능한 빠른 학습이 가능한 특징을 가집니다. 언어 모델링, 상식 추론, 유전체학, 시계열 작업에서의 실험 결과는 Titans이 트랜스포머와 최근의 Autoregressive 모델들보다 더 효과적이라는 것을 보여줍니다. Titans는 또한 200만 이상의 컨텍스트 윈도우 내에서 더 높은 정확도로 문맥에 필요한 정보를 찾아내었습니다. https://arxiv.org/pdf/2501.00663 * GPT 시리즈와 Claude 시리즈를 능가하는 스타트업의 foundation model 중국의 스타트업 Minimax AI 에서 MiniMax-Text-01 와 MiniMax-VL-01를 소개하였습니다. MiniMax-Text-01은 Mixture-of-Expert 기법을 사용하여 32개의 전문가 모델, 총 4,560억개의 파라메터를 가진 모델로, 연구자들은 라이트닝 어텐션 적용을 위해 최적화된 병렬 전략과 효율적인 계산-통신 중첩 기술을 제안하였습니다. 이를 통해 MiniMax-Text-01의 컨텍스트 윈도우는 학습 중에는 100만 토큰까지 도달할 수 있으며, 추론 시에는 합리적인 비용으로 400만 토큰까지 확장될 수 있습니다. 비전-언어 모델인 MiniMax-VL-01은 5,120억 개의 비전-언어 토큰을 통한 지속적인 학습으로 구축되었습니다. 표준 및 자체 벤치마크에서의 실험 결과, 두 모델들은 GPT-4와 Claude-3.5-Sonnet과 같은 최신 모델들의 성능과 대등하면서도 20-32배 더 긴 컨텍스트 윈도우를 제공합니다. 현재 Minimax AI의 서비스는 무료로 사용할 수 있습니다. https://minimax-ai.org/