Community

모델의 규모를 키우는 것은 창발성의 확대에 기여를 하는 것이지 성능에는 큰 기여를 하지는 않는 것으로 보임. 따라서 모델의 규모를 키워 능력의 확장을 기대하고, 능력의 확장이 확인되면 SFT/RL

모델의 규모를 키우는 것은 창발성의 확대에 기여를 하는 것이지 성능에는 큰 기여를 하지는 않는 것으로 보임. 따라서 모델의 규모를 키워 능력의 확장을 기대하고, 능력의 확장이 확인되면 SFT/RL + Distill하는 방식으로 성능을 높이고 파라미터를 최적화하는 순서로 모델 개발이 이루어지는 듯.

알림

알림이 없습니다