Stability AI에서 오픈소스 일본어 LLM 모델, Japanese StableLM을 오픈했네요.
백본 모델(Japanese StableLM Base Alpha 7B) 과 SFT 모델(Japanese StableLM Instruct Alpha 7B) 2가지를 공개했습니다.
다만, 아직까지는 7B 모델까지만 있고..
백본모델은 상업적으로 이용가능할 수 있게 공개되었지만 SFT 모델은 연구 목적의 이용에 한정되었습니다.
학습에는 750B 토큰이 사용되었는데, 일본어와 영어가 섞여있는듯 합니다. 두 언어가 어느 비율로 믹싱되어 있는지가 궁금한데, 2%는 코드 데이터라고만 되어 있군요..
Training Dataset이 Japanese/English Wikipedia, Japanese mc4, Japanese CC-100, Japanese OSCAR, RedPajama 로 되어 있는걸 봐서는 일본어 데이터 max에 영어 데이터 섞어서 대략 1:1 정도이지 않을까라는 추측만해봅니다ㅎㅎ
Blog: https://stability.ai/.../stability-ai-new-jplm-japanese...
Performance Evaluation: https://github.com/.../lm-evaluation-harness/tree/jp-stable