얼마 전에 MS에서 Pytorch기반으로 Transformer 모델을 효율적으로 학습할 수 있도록 해 주는 torchscale이라는 라이브러리를 공개했습니다.
요즘 Transformer 기반의 Large scale model 들이 인기를 얻고 있지만, 어느정도 잘 되는 코드를 가져다가 쓰는게 아니라면 이걸 잘 학습하는 것이 쉬운게 아니고 특히 모델 규모가 커질수록 더 그러한데요, 다양한 연구들로부터 나온 테크닉을 녹여 넣어서 큰 스케일에서도 학습이 잘 되도록 만들었다고 합니다.
꼭 한번 테스트 해 봐야 겠네요!