[AI Report] 2024년3월 변곡점에 도달한 오픈소스 LLM
현재의 생성형 AI 혁명은 소위 대규모 언어 모델(LLM)이 어느 정도 분산된 방식으로 전 세계적으로 동시에 지속적으로 최적화되지 않았다면 불가능했을 것입니다. 그러나 오픈 소스 LLM은 기업이 자체 모델에서 독점 데이터를 학습시켜 완전한 제어 및 사용자 지정 기능을 갖추는 방식에 있어 많은 새로운 것을 가능하게 하고 있습니다. 특히, 아래와 같은 2024년 3월에 양질의 오픈 소스 LLM이 집중적으로 출시된 것은 특이한 현상입니다. * Databricks(MosaicML)의 DBRX * A21 Labs의 JAMBA * Alibaba Cloud의 Qwen1.5 * SambaNova Systems의 Samba-CoE v0.2 * NexusFlow(버클리)의 Starling-LM-7B-beta * xAI의 Grok 1.5 * 미스트랄의 7B v2 * Mobius Labs의 HQQ+를 사용한 와일드 1비트 및 2비트 양자화 * 법률용 SaulLM-7B 🍀오픈 소스와 폐쇄 소스 간의 격차가 좁혀지고 있습니다. DBRX, 잠바, Qwen1.5의 성능을 보면 클로즈드 소스 LLM과 오픈 소스 간의 격차가 좁혀지고 있음을 알 수 있습니다. 오늘날 Claude 3 Opus와 GPT-Turbo만큼이나 좋은 성능입니다. LLM 비교와 벤치마킹은 그 어느 때보다 더 복잡하고 어려워졌습니다. 🍀 LLM 성능 벤치마크 - 클로드 3 오푸스, GPT-4 및 제미니 울트라 2024년 초의 빅 3는 무엇일까요? 바로 클로드 3 오퍼스, GPT-4, 구글 제미니 울트라입니다. 저는 개인적으로 2024년 3월 현재 클로드 3 오푸스를 선호합니다. 🍀 오픈 LLM에 대한 평가 * Open LLM Leaderboard by Hugging Face(https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard) 🍀 오픈 소스 LLM의 스펙트럼 🫱 오픈 소스 LLM이란 무엇인가요? * 오픈 소스 LLM에 대한 가장 쉬운 설명은 무료로 제공되며 누구나 수정하고 커스터마이징할 수 있는 LLM입니다. 오픈 소스 LLM을 사용하면 라이선스 비용을 지불하지 않고도 모든 개인이나 기업이 자신의 용도에 맞게 사용할 수 있습니다. 여기에는 자체 인프라에 LLM을 배포하고 필요에 맞게 미세 조정하는 것도 포함됩니다. * 이는 한 개인이나 조직이 소유하고 대중이 사용할 수 없는 독점 모델인 비공개 소스 LLM과 반대되는 개념입니다. 가장 유명한 예는 OpenAI의 GPT 시리즈 모델입니다. * 그러나 일부에서 지적한 것처럼 이 모델에는 다양한 스펙트럼이 존재합니다. 데이터에 대한 투명성 없이 가중치만 있는 것은 진정한 오픈소스가 아닙니다. 분명한 것은 2024년에 OS-LLM의 진화 트리가 더 빠르게 분기되고 있다는 것입니다. * 이 글의 범위를 넘어 오픈 소스 LLM의 전체 스펙트럼을 보여주는 것은 불가능하지만, 그 등급은 정말 다양합니다. 또한 기업이 오픈 소스 모델을 개발하는 동기는 주목할 만하고 중요한 인센티브입니다. 메타에서 데이터브릭스, xAI에 이르기까지 각 모델에는 고유한 인센티브가 있습니다. 데이터브릭스 같은 기업이 경쟁사(이 경우에는 스노우플레이크)보다 앞서기 위해 DBRX와 같은 사내 오픈 소스 LLM을 개발하는 데 천만 달러를 투자했다는 것은 향후 수억 달러의 수익이 될 수 있는 영향력을 위해 천만 달러를 투자했다는 의미이기도 합니다. 이번 주에 이에 대한 글을 썼습니다. 🫱 오픈 소스 LLM 사용의 이점 * 비용 절감: 라이선스 비용이 필요하지 않으므로 초기 비용과 지속적인 비용을 크게 절감 * 조직은 이러한 모델을 자유롭게 배포할 수 있으므로 직접적인 비용 절감 * 독점 데이터에 대한 제어 및 개인정보 보호 강화 * 전반적인 데이터 보안 및 개인정보 보호 강화 * 비용 절감 및 벤더 의존도 감소 * 코드 투명성 및 언어 모델 사용자 지정 * 적극적인 커뮤니티 지원 및 혁신 촉진 * 커뮤니티 기여의 추가 기능 * AI의 환경 발자국 문제 해결 * 사례별로 관련된 다른 많은 특정 요소들 🍀 2024년 오픈 소스 LLM의 알려지지 않은 이야기 오픈 소스 LLM의 진화에 대한 알려지지 않은 이야기는 중국에서 얼마나 많은 진전이 이루어졌으며 중국이 이 분야에서 어떻게 리더가 될 것인지입니다.2024년 초, 오픈 소스 LLM을 통한 중국의 혁신은 다른 지역보다 훨씬 더 활발하게 이루어지고 있습니다. * 미국 > 프랑스 > 중국 > 영국 > 이스라엘 > 캐나다 > 독일 > 싱가포르 🍀 TL;DR * 생성 중 27억 개가 활성화된 14.3억 개의 파라미터 * 60명의 전문가, 4명이 생성 중 활성화 * "업사이클링"(FFN을 8개 조각(Deepspeek MoE)으로 조각화 → 조각 8x8 복제를 통해 MoE 생성 → 사전 학습 계속)*을 사용하여 Qwen-1.8B에 구축. * 32,768개의 컨텍스트가 있는 기반 및 채팅 모델 * 선호도 학습에 DPO를 사용한 채팅 모델 * 1.5~7억 위안 성능에 맞춰 훈련 비용 75% 절감 * 커스텀 라이선스, 상업적 사용 가능 🍀 전문가 혼합 새로운 오픈 소스 모델 중 상당수가 14개 또는 대부분 16개와 같이 더 많은 MoE를 사용하고 있습니다.MoE 모델의 학습 비용은 밀도가 높은 모델과 크게 차이가 납니다. 매개변수 수는 더 많지만 희소성으로 인해 MoE 모델의 학습 비용은 현저히 감소할 수 있습니다. 2024년 초에는 MoE가 널리 보급되는 시대가 도래할 것이며, 이는 훨씬 더 효율적인 모델이 등장하고 GPT-4와 나머지 기본 모델 간의 격차가 상당히 좁혀질 것임을 의미합니다. 🍀 오픈 소스 LLM이 제너레이티브 AI에 미치는 영향의 결론 더 이상 오픈 소스 LLM이 클로즈 소스 모델보다 몇 년 뒤처졌다거나 중국이 서구에 비해 9개월에서 몇 년 뒤처졌다고 말할 수 없습니다. 더 이상 사실이 아닙니다. 이제는 새로운 시대가 열렸습니다. 아직 이를 이해하지 못하는 사람들도 있습니다. MoE 이후에는 무엇이 오나요? 이에 대해서는 조금 더 자세히 설명하겠습니다. 🫱 Grok 1.5는 얼마나 좋은가요? 특히 Grok 1.5가 우위에 있는 것으로 보이는 유일한 벤치마크는 HumanEval로, Claude 3 Opus를 제외한 모든 모델보다 우수한 성능을 보였습니다. 특히 코딩 및 수학 관련 작업에서 "향상된 추론 능력"이 Grok-1.5의 장점이라고 X.ai는 설명합니다. Grok-1.5는 다음 주, 즉 2024년 4월 초에 X에서 초기 테스터들에게 곧 제공될 예정입니다. 🍀 아파치 2.0 라이선스 아레나 순위표(2024년 3월 29일 기준) 1. Mistral 2. Together AI 3. OpenChat 4. NousResearch 5. RWKV 6. Nexusflow 🍀 오픈 소스 LLM의 미래 전망 2024년 6월에 출시될 Llama-3를 고려하면 올해는 진정한 오픈 소스 LLM 운동의 해입니다. Meta의 Llama 모델 출시와 2023년 Llama 2의 후속 출시로 오픈 소스 언어 모델이 폭발적으로 증가하기 시작했으며, 매일같이 더 우수하고 혁신적인 모델이 출시되고 있습니다. 이제 새로운 오픈 소스 모델과 독점 데이터 세트와 짝을 이루는 후속 스타트업의 속도가 더욱 빨라졌습니다. 이러한 모멘텀을 고려할 때 OpenAI, Microsoft 또는 Google과 같은 폐쇄형 소스 모델은 오래가지 못할 수도 있습니다.2024년 3월의 빅3는 오픈 소스 LLM에서 각각 MoE와 CoE의 부상을 보여주는 흥미로운 사용 사례로 눈에 띕니다. * DBRX * Jamba * Samba-CoE >> 출처: https://aisupremacy.substack.com/p/the-biggest-open-source-week-in-the