LLaMA 모델의 간략한 역사

👉 Metaverse에 대해서 진심(?)으로 접근하고자 회사명도 페이스북에서 메타로 변경한 메타가 이제는 AI분야에 심혈을 기울이고 있습니다. (메타버스는 어디에??-.-) LLaMA를 기반으로 파인튜닝된 여러 모델의 발전과 툴에 대한 간략한 내용들 공유해봅니다. 아직 신규 모델이다보니 일부 모델은 내용이 많지 않은 경우도 있네요. 보다 상세한 내용은 원문을 참고해주시길 바랍니다~^^ 🔔 LLaMA 기본 모델 🚩 https://arxiv.org/abs/2302.13971 🚩 Release: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/ 🚩 Concept: Meta(Facebook)에서 출시한 언어 모델, GPT와 마찬가지로 LLaMA는 fine-tuned에 적합한 범용 기본 모델 🚩 Size: 7B, 13B, 33B, 65B 🚩 Training data: Various 🚩 Summary: 작은 크기, 고성능, 오픈 소스 🔔 알파카 모델 🚩 https://crfm.stanford.edu/2023/03/13/alpaca.html 🚩 Github: https://github.com/tatsu-lab/stanford_alpaca 🚩 Concept: fine-tuned LLaMA 모델로, 모델 아키텍처는 동일하지만 가중치는 약간 다르며, LLaMA 모델의 지시에 따른 기능 부족을 해결하기 위한 모델 🚩 Size: 7B, 13B 🚩 Training data: 52k GPT-3 instructions 🚩 Summary: fine-tunnig의 첫단계로 적합한 LLaMA 모델 🔔 비쿠나 모델 🚩 https://vicuna.lmsys.org/ 🚩 Concept: ShareGPT.com에서 수집한 사용자 공유 대화를 기반으로 fine-tuned LLaMA 모델로, 기본적으로 ChatGPT 대화로 미세 조정되는 모델 / Vicuna-13B는 Meta의 LLaMA와 Stanford의 Alpaca에 영감을 받아 UC Berkeley, UCSD, CMU, MBZUAI(Mohamed Bin Zayed Univ. of AI)가 공동으로 개발한 오픈소스 챗봇으로 ShardGPT로 부터 수집된 사용자들의 대화로 LLaMA를 fine-tuning한 모델이다. (ShardGPT는 사용자 프롬프트와 ChatGPT의 해당 답변 결과를 서로 공유할 수 있는 웹사이트이다.) 🚩 Size: 7B, 13B 🚩 Training data: 70k ChatGPT conversations 🚩 Summary: 로컬에서 실행할 수 있는 최고의 LLaMA 모델 중 하나 🔔 코알라 모델 🚩 https://bair.berkeley.edu/blog/2023/04/03/koala/ 🚩 Concept: UC Berkeley의 학술 팀이 공개적으로 사용할 수 있는 대화 데이터로 미세 조정된(fine-tuned) LLaMA 모델로 모든 데이터 세트 사용하는 Koala-All과 처음 두 데이터 세트 사용(즉, ChatGPT에서 추출한 데이터)하는 Koala-Distill 두 모델 결과를 비교 🚩 Size: 7B, 13B 🚩 Training data: 117k cleaned ChatGPT conversations 🚩 Summary: Koala-All과 Koala-Distill의 성능을 Alpaca 및 ChatGPT와 비교하여 평가하면, Alpaca < Koala-All < Koala-Distill < ChatGPT 결과를 보이며, 데이터의 질이 양보다 더 중요하다는 것과 LLaMA 모델을 미세 조정하기 위해 고품질 데이터를 찾거나 생성하는 것이 보다 더 중요할 것이라는 결과를 보여줌. 🔔 GPT4-x-알파카 모델 🚩 https://huggingface.co/chavinlo/gpt4-x-alpaca 🚩 Concept: GPT4 대화 모음인 GPTeacher로 미세 조정된 LLaMA 13B 모델로 2023년 4월 릴리즈 🚩 Size: 13B 🚩 Training data: 20k GPT4 instructions 🚩 Summary: 🔔 WizardLM 모델 🚩 https://arxiv.org/abs/2304.12244 🚩 Github: https://github.com/nlpxucan/WizardLM 🚩 Concept: LLM을 사용하여 훈련 데이터를 자동으로 생성하는 모델 🚩 Size: 7B 🚩 Training data: 70k instructions synthesized with ChatGPT/GPT-3 🔔 OpenAssistant 모델 🚩 https://open-assistant.io/ 🚩 Github: https://github.com/LAION-AI/Open-Assistant 🚩 Concept: 모든 사람이 자유롭게 사용할 수 있는 AI 챗봇을 개발하기 위한 오픈 소스로 다양한 모델을 교육하기 위한 다양한 주제의 600,000개 이상의 상호 작용이 포함된 교육 데이터 세트인 OpenAssistant Conversations 기반 🚩 Size: 13B, 30B 🚩 Training data: 600k human interactions (OpenAssistant Conversations) 출처: https://agi-sphere.com/llama-models/

LLaMA: Open and Efficient Foundation Language Models

arXiv.org

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 5월 9일 오후 3:01

•

저장 6 • 조회 2,357

비슷한 게시물

주간 인기 TOP 10

골빈해커 Chief Maker

요 며칠 GPT-5 Reasoning - High 를 사용해서 진

K리그 프로그래머 커피한잔 개발자

내가 가본 우리나라

석민 커리어 코치

확신은 어디에서 오는가?

김선호 여기어때컴퍼니 / User Behavior Team Lead

매우 공감하는 글. 좀 더 첨언해보자면, - 문제가 뭔지 정의하

장홍석 스페이스오디티 부대표/CPO

< 모른다고 말하는 순간, 뇌도 멈춘다 >

Arawn Park Senior Engineer & Engineering Lead

JSpecify로 끝내는 NPE 전쟁

마케터 초인(윤진호) 초인 마케팅랩 LEADER

타인의 평가자가 되어 삶을 허비하지 않기로 하였다

달레 Apollo GraphQL Software Engineer

재미있는 함수에 대해 배워볼까요! 😄

김현청 | Hyuncheong KIM 블루에이지 회장 | 서울리더스클럽회장 | (사)도서관산업협회 회장

일과 사랑, 그리고 인생을 위한 명언 1697개

서지연 개발자

📰 개발자로서 읽어야 할 책 8권 ✍️ dev.to에 올라온

LLaMA 모델의 간략한 역사

댓글 0

비슷한 게시물

주간 인기 TOP 10

추천 프로필