메타 AI에서 Megabyte라는 트랜스포머를 대체 할 수 있는 새로운 뉴럴넷 아키텍처를 발표했습니다. 실험결과 1.2M 토큰까지 처리(GPT 32K, Claude 100K)할 수 있으며, 1.5B개의 파라미터의 Megabyte 모델이 350M개의 파라미터의 트랜스포머 모델보다 40% 더 빠르다고. 진격의 메타!!

MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers

arXiv.org

MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2023년 5월 26일 오전 1:24

 • 

저장 2조회 1,524

댓글 0