공식으로 공개된 내용이 아니라서 아직 썰이긴 하지만, geohotz 의 말에 따르면 GPT-4 는 1조개 이상의 파라미터를 가진 모델일거라고 하네요.
GPT-4는 220B 파라미터의 모델 8개(2200억 x8 = 1.76조 파라미터)로 구성된 혼합 모델로, 각 모델은 다른 데이터/태스크로 학습하고 있다라고 합니다.
출력시에 16회의 추론을 하고 있다고 하는데요. 모델간의 파라미터 공유가 있을 수 있어, 1.76T 가 아닌 1.2T 정도일 수도 있다고 하네요.
지금은 최적화해서 파라미터가 더 적을 수도 있다고 하는데, 아무튼 단일 모델이 아닌 혼합 모델이라는 것이 흥미롭군요.