MS에서 WizardLM, WizardCoder 모델을 공개하면서 complex instruction의 중요성을 일깨워줬었는데요.
https://github.com/nlpxucan/WizardLM
이번엔 추가로 수학 전용 모델인 WizardMath (70B/13B/7B)을 릴리즈 했습니다.
WizardMath 70B는 다음을 달성합니다:
1. GSM8k 벤치마크에서 Pass@1 81.6으로 ChatGPT-3.5, Claude Instant-1, PaLM-2 및 Chinchilla를 능가합니다.
2. MATH 벤치마크에서 Pass@1 22.7로 Text-davinci-002, GAL, PaLM, GPT-3을 능가합니다.
3. GSM8k와 MATH 모두에서 다른 모든 오픈 소스 LLM을 큰 차이로 능가합니다.
- 아직 paper로 정리되진 않았는데 다음주에 곧 공개될 예정으로 보이네요.
HF Weights: https://huggingface.co/WizardLM/WizardMath-70B-V1.0
Github: https://github.com/nlpxucan/WizardLM/tree/main/WizardMath