<메타, 오픈소스 초거대 언어 모델 LLaMa2 발표>

커리어리 친구들, 오늘은 트위터, 쓰레즈, 페이스북, 미디어 할 것 없이 인공지능에 관심 있는 분들은 메타 LLaMa 버전2에 대해 일제히 공유하고 있지요? 저도 편승해서 몇 가지 소식을 전달하겠습니다. 사실 LLaMa 버전1이 나오고 상용 버전이 나온다고 무수한 소문이 많이 돌았습니다. 라마2의 기본적인 특징을 살펴보면 다음과 같습니다. 🍾 총 파라미터가 7B, 13B, 70B 모델 공개 🍾 3개 모델 학습을 위해 A100 그래픽 카드 331만 시간 사용 & 539톤 이산화탄소 배출 🍾 70B 모델은 현존 오픈소스 LLM 중 최고성능 🍾 70B 모델 성능은 GPT-3.5에 근접한다고 논문을 내었는데 이것은 별도로 올릴께요! 저도 한번 올려 봐야겠어요 :) 🍾 월 7억명 MAU까지는 무료로 상업적 이용 가능 그리고 지금까지 살펴 본 결과, 라마2 모델은 기존 HuggingFace의 transformers 라이브러리에 포함된 LLaMA 구조를 그대로 활용 했네요. 모델 구조는 크게 바뀌지 않았지만, 성능은 월등히 좋아진 것으로 미루어볼 때, 데이터셋과 파인튜닝 작업이 매우 중요하구나를 느꼈습니다. (이걸 잘 하려면 여러번 시도해야 하는 데 결국 돈이 많이 들어가는 작업) 그렇게 느낀 이유는 사전 훈련된 모델 뿐만 아니라 파인튜닝에 활용된 데이터도 못지 않게 중요하기 때문입니다. 또한 기존 커뮤니티에서 일어나는 수 많은 노력으로 GPT4 제너레이션 데이터가 활용되었습니다. 라마2 챗 모델에서는 약 27,540건의 데이터로 파인튜닝을 진행했으며, 사전 훈련을 총 1 epoch 동안, 파인튜닝을 총 2 epochs 동안만 진행했다고 합니다. 1 epoch is all you need.과적합되는 경향이 있는데, 이를 피하기 위해서라고 하는데 이 방법이 성능 향상에 꽤 미친 것 같습니다. 사용하는 라이선스는 무료이지만 “LLAMA 2 COMMUNITY LICENSE AGREEMENT" 로 몇 가지 제약 조건있는데 이것은 다음에 얘기 나누기로 하고 여러분들도 직접 다운받아 올릴 수 엤습니다. GPU 서버 없는 분들은 퍼블릭 클라우드에서 70B를 시간도 오래 걸리고 돈도 몇 십만원 나가니 마음 먹고 하시고 일단 7B 부터 해 보시고 이상없으면 점차 올리시기를 권장합니다.

Meta and Microsoft Introduce the Next Generation of Llama | Meta

Meta

Meta and Microsoft Introduce the Next Generation of Llama | Meta

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 7월 19일 오전 12:23

댓글 1