TinyLlama: An Open-Source Small Language Model
arXiv.org
커리어리 친구들, 작년 미스트럴 LLM 이후에 LLM 파라미터가 작은 것으로 점점 유행되고 있는 데, 이 논문은 그러한 추세를 잘 반영하고 있어서 추천드립니다.
논문: https://arxiv.org/abs/2401.02385
초록:
"우리는 대략 1조 토큰에 대해 약 3 에폭동안 사전 훈련된 컴팩트한 11억 언어 모델인 TinyLlama를 소개합니다. Llama 2의 아키텍처와 토크나이저를 기반으로 하여, TinyLlama는 오픈 소스 커뮤니티에서 기여한 여러 발전들(예: FlashAttention)을 활용하여 더 나은 계산 효율성을 달성합니다.
상대적으로 작은 크기임에도 불구하고 TinyLlama는 다양한 다운스트림 작업에서 뛰어난 성능을 보여줍니다. 이는 크기가 비슷한 기존의 오픈 소스 언어 모델들을 크게 앞서는 성능을 나타냅니다."
GitHub: https://github.com/jzhang38/TinyLlama
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 1월 7일 오전 2:21
현
... 더 보기S
... 더 보기요
... 더 보기달
... 더 보기오
... 더 보기혹
... 더 보기