👉 Metaverse에 대해서 진심(?)으로 접근하고자 회사명도 페이스북에서 메타로 변경한 메타가 이제는 AI분야에 심혈을 기울이고 있습니다. (메타버스는 어디에??-.-) LLaMA를 기반으로 파인튜닝된 여러 모델의 발전과 툴에 대한 간략한 내용들 공유해봅니다. 아직 신규 모델이다보니 일부 모델은 내용이 많지 않은 경우도 있네요. 보다 상세한 내용은 원문을 참고해주시길 바랍니다~^^
🔔 LLaMA 기본 모델
🚩 https://arxiv.org/abs/2302.13971
🚩 Release: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
🚩 Concept: Meta(Facebook)에서 출시한 언어 모델, GPT와 마찬가지로 LLaMA는 fine-tuned에 적합한 범용 기본 모델
🚩 Size: 7B, 13B, 33B, 65B
🚩 Training data: Various
🚩 Summary: 작은 크기, 고성능, 오픈 소스
🔔 알파카 모델
🚩 https://crfm.stanford.edu/2023/03/13/alpaca.html
🚩 Github: https://github.com/tatsu-lab/stanford_alpaca
🚩 Concept: fine-tuned LLaMA 모델로, 모델 아키텍처는 동일하지만 가중치는 약간 다르며, LLaMA 모델의 지시에 따른 기능 부족을 해결하기 위한 모델
🚩 Size: 7B, 13B
🚩 Training data: 52k GPT-3 instructions
🚩 Summary: fine-tunnig의 첫단계로 적합한 LLaMA 모델
🔔 비쿠나 모델
🚩 https://vicuna.lmsys.org/
🚩 Concept: ShareGPT.com에서 수집한 사용자 공유 대화를 기반으로 fine-tuned LLaMA 모델로, 기본적으로 ChatGPT 대화로 미세 조정되는 모델 / Vicuna-13B는 Meta의 LLaMA와 Stanford의 Alpaca에 영감을 받아 UC Berkeley, UCSD, CMU, MBZUAI(Mohamed Bin Zayed Univ. of AI)가 공동으로 개발한 오픈소스 챗봇으로 ShardGPT로 부터 수집된 사용자들의 대화로 LLaMA를 fine-tuning한 모델이다. (ShardGPT는 사용자 프롬프트와 ChatGPT의 해당 답변 결과를 서로 공유할 수 있는 웹사이트이다.)
🚩 Size: 7B, 13B
🚩 Training data: 70k ChatGPT conversations
🚩 Summary: 로컬에서 실행할 수 있는 최고의 LLaMA 모델 중 하나
🔔 코알라 모델
🚩 https://bair.berkeley.edu/blog/2023/04/03/koala/
🚩 Concept: UC Berkeley의 학술 팀이 공개적으로 사용할 수 있는 대화 데이터로 미세 조정된(fine-tuned) LLaMA 모델로 모든 데이터 세트 사용하는 Koala-All과 처음 두 데이터 세트 사용(즉, ChatGPT에서 추출한 데이터)하는 Koala-Distill 두 모델 결과를 비교
🚩 Size: 7B, 13B
🚩 Training data: 117k cleaned ChatGPT conversations
🚩 Summary: Koala-All과 Koala-Distill의 성능을 Alpaca 및 ChatGPT와 비교하여 평가하면, Alpaca < Koala-All < Koala-Distill < ChatGPT 결과를 보이며, 데이터의 질이 양보다 더 중요하다는 것과 LLaMA 모델을 미세 조정하기 위해 고품질 데이터를 찾거나 생성하는 것이 보다 더 중요할 것이라는 결과를 보여줌.
🔔 GPT4-x-알파카 모델
🚩 https://huggingface.co/chavinlo/gpt4-x-alpaca
🚩 Concept: GPT4 대화 모음인 GPTeacher로 미세 조정된 LLaMA 13B 모델로 2023년 4월 릴리즈
🚩 Size: 13B
🚩 Training data: 20k GPT4 instructions
🚩 Summary:
🔔 WizardLM 모델
🚩 https://arxiv.org/abs/2304.12244
🚩 Github: https://github.com/nlpxucan/WizardLM
🚩 Concept: LLM을 사용하여 훈련 데이터를 자동으로 생성하는 모델
🚩 Size: 7B
🚩 Training data: 70k instructions synthesized with ChatGPT/GPT-3
🔔 OpenAssistant 모델
🚩 https://open-assistant.io/
🚩 Github: https://github.com/LAION-AI/Open-Assistant
🚩 Concept: 모든 사람이 자유롭게 사용할 수 있는 AI 챗봇을 개발하기 위한 오픈 소스로 다양한 모델을 교육하기 위한 다양한 주제의 600,000개 이상의 상호 작용이 포함된 교육 데이터 세트인 OpenAssistant Conversations 기반
🚩 Size: 13B, 30B
🚩 Training data: 600k human interactions (OpenAssistant Conversations)
출처: https://agi-sphere.com/llama-models/