많이 아시겠지만 오늘 메타에서 7B - 65B 파라미터 크기의 오픈소스 대형 언어 모델 LLaMA를 공개했네요.
한때는 파라미터 1,000B를 향한 경쟁도 있었지만 이제 서비스와 추론 속도를 고려하여 보다 작은 모델 크기에, 보다 대량과 양질의 데이터로 학습하는 방향으로 흘러가고 있어요.
본 모델의 좋은 점은 커먼크롤, C4, 깃헙, 위키피디아, 구텐베르크 프로젝트 등 공개적으로 이용 가능한 데이터(1.4T 토큰)만을 사용해 학습했다는 것입니다.
바닐라 트랜스포머 아키텍처에 출력 대신 서브 레이어를 정규화하는 사전 정규화, SwiGLU 활성화 함수, 그리고 위치 임베딩 대신 로터리 임베딩, AdamW 옵티마이저 등을 적용했습니다.
모델 최적화에는 (xformers 라이브러리의) 코절 멀티 헤드 어텐션 오퍼레이터와 체크포인팅, 모델과 시퀀스 병렬화 기법을 사용했고요. 그래서 65B 짜리 훈련할 때 2,048개 A100(80GB) GPU로 초당 380개 토큰 처리량(총 21일 소요)을 보였어요.
결과적으로 다양한 벤치마크에서 약 1/10의 모델 크기로 GPT-3를 능가하고 친칠라, PaLM에 견주는 성과를 달성했습니다. 오픈소스지만 모델 토크나이저와 가중치는 승인을 받아야 다운로드 가능한데 제 신청도 받아들여지면 좋겠네요. (13B 이하는 GPU 1장 정도에서도 추론 서빙 가능하군요!) 😀
깃헙: https://github.com/facebookresearch/llama
논문: https://research.facebook.com/file/1574548786327032/LLaMA--Open-and-Efficient-Foundation-Language-Models.pdf