최근 Mistral AI가 공개한 Mixtral 8X7B 모델이 핫한데요. Mixtral에 대해서는 https://news.hada.io/topic?id=12296 에 잘 요약되어 있는 것 같습니다
최근 Mistral AI가 공개한 Mixtral 8X7B 모델이 핫한데요. Mixtral에 대해서는 https://news.hada.io/topic?id=12296 에 잘 요약되어 있는 것 같습니다. Mistral AI에서는 모델도 오픈소스로 배포했지만 플랫폼 장사도 이제 시작했습니다. (https://mistral.ai/news/la-plateforme/) Mistral-tiny: Mistral 7B Instruct v0.2 모델 Mistral-small: Mixtral 8x7B-v0.1 모델 Mistral-medium은 현재 비공개 추가로 mistral-embed 라는 임베딩 모델도 제공. 참고로 Mixtral 8x7B 모델은 https://labs.perplexity.ai/ 의 playground에서도 테스트 해볼 수 있습니다. GPT-4도 유출된 내용에서 166B 모델 8개를 묶은 MoE 방식으로 구동되는것으로 알려졌었는데, Mixtral 모델로도 증명이 된듯해서 pretrain 모델은 이제 Mixture of Experts (MOE)로 대세가 되지 않을까 싶네요.