<메타, 오픈소스 초거대 언어 모델 LLaMa2 발표>

커리어리 친구들, 오늘은 트위터, 쓰레즈, 페이스북, 미디어 할 것 없이 인공지능에 관심 있는 분들은 메타 LLaMa 버전2에 대해 일제히 공유하고 있지요? 저도 편승해서 몇 가지 소식을 전달하겠습니다. 사실 LLaMa 버전1이 나오고 상용 버전이 나온다고 무수한 소문이 많이 돌았습니다. 라마2의 기본적인 특징을 살펴보면 다음과 같습니다. 🍾 총 파라미터가 7B, 13B, 70B 모델 공개 🍾 3개 모델 학습을 위해 A100 그래픽 카드 331만 시간 사용 & 539톤 이산화탄소 배출 🍾 70B 모델은 현존 오픈소스 LLM 중 최고성능 🍾 70B 모델 성능은 GPT-3.5에 근접한다고 논문을 내었는데 이것은 별도로 올릴께요! 저도 한번 올려 봐야겠어요 :) 🍾 월 7억명 MAU까지는 무료로 상업적 이용 가능 그리고 지금까지 살펴 본 결과, 라마2 모델은 기존 HuggingFace의 transformers 라이브러리에 포함된 LLaMA 구조를 그대로 활용 했네요. 모델 구조는 크게 바뀌지 않았지만, 성능은 월등히 좋아진 것으로 미루어볼 때, 데이터셋과 파인튜닝 작업이 매우 중요하구나를 느꼈습니다. (이걸 잘 하려면 여러번 시도해야 하는 데 결국 돈이 많이 들어가는 작업) 그렇게 느낀 이유는 사전 훈련된 모델 뿐만 아니라 파인튜닝에 활용된 데이터도 못지 않게 중요하기 때문입니다. 또한 기존 커뮤니티에서 일어나는 수 많은 노력으로 GPT4 제너레이션 데이터가 활용되었습니다. 라마2 챗 모델에서는 약 27,540건의 데이터로 파인튜닝을 진행했으며, 사전 훈련을 총 1 epoch 동안, 파인튜닝을 총 2 epochs 동안만 진행했다고 합니다. 1 epoch is all you need.과적합되는 경향이 있는데, 이를 피하기 위해서라고 하는데 이 방법이 성능 향상에 꽤 미친 것 같습니다. 사용하는 라이선스는 무료이지만 “LLAMA 2 COMMUNITY LICENSE AGREEMENT" 로 몇 가지 제약 조건있는데 이것은 다음에 얘기 나누기로 하고 여러분들도 직접 다운받아 올릴 수 엤습니다. GPU 서버 없는 분들은 퍼블릭 클라우드에서 70B를 시간도 오래 걸리고 돈도 몇 십만원 나가니 마음 먹고 하시고 일단 7B 부터 해 보시고 이상없으면 점차 올리시기를 권장합니다.

Meta and Microsoft Introduce the Next Generation of Llama | Meta

비슷한 게시물

주간 인기 TOP 10

골빈해커 Chief Maker

요 며칠 GPT-5 Reasoning - High 를 사용해서 진

K리그 프로그래머 커피한잔 개발자

내가 가본 우리나라

석민 커리어 코치

확신은 어디에서 오는가?

김선호 여기어때컴퍼니 / User Behavior Team Lead

매우 공감하는 글. 좀 더 첨언해보자면, - 문제가 뭔지 정의하

장홍석 스페이스오디티 부대표/CPO

< 모른다고 말하는 순간, 뇌도 멈춘다 >

Arawn Park Senior Engineer & Engineering Lead

JSpecify로 끝내는 NPE 전쟁

마케터 초인(윤진호) 초인 마케팅랩 LEADER

타인의 평가자가 되어 삶을 허비하지 않기로 하였다

달레 Apollo GraphQL Software Engineer

재미있는 함수에 대해 배워볼까요! 😄

김현청 | Hyuncheong KIM 블루에이지 회장 | 서울리더스클럽회장 | (사)도서관산업협회 회장

일과 사랑, 그리고 인생을 위한 명언 1697개

서지연 개발자

📰 개발자로서 읽어야 할 책 8권 ✍️ dev.to에 올라온

<메타, 오픈소스 초거대 언어 모델 LLaMa2 발표>

댓글 1

비슷한 게시물

주간 인기 TOP 10

추천 프로필