꽤 좋은 성능을 낸다고 하는 GPT-JT의 공개

GPT-JT 라는 모델이 공개되었는데요, 꽤 흥미로운 점들을 몇가지 찾아볼 수 있습니다. - 6B개의 파라미터로 그렇게 큰 모델은 아니지만, 벤치마크에서 100B개 파라미터가 넘는 큰 모델보다 성능이 잘 나오기도 합니다. - EleutherAI 의 pretrained 된 GPT-J를 기반으로 하고 있습니다. - 학습에 사용한 데이터는 AllenAI나 BigScience (BLOOM 을 만든) 에서 공개한 데이터셋들을 활용했다고 합니다. - 보통 큰 규모 모델을 학습할 때 사용하는 고속 네트워크로 연결된 클라우드나 고성능 클러스터를 사용하는 것에 반해서 지리적으로 여러 위치에 분산된 네트워크가 그리 빠르지 않은 (~1Gbps 수준) 환경에서 분산학습을 진행한 점도 굉장히 흥미롭습니다. 이와 관련된 논문도 NeurIPS에 냈습니다. 해당 모델은 HF에 공개가 되어 있어서 쉽게 가져다가 테스트해 볼 수도 있습니다. 기반이 되는 모델 뿐 아니라, 학습 데이터셋 등이 대부분 오픈소스 기반입니다. 최근의 stable diffusion 같은 모델도 그렇고 오픈소스 문화가 정말 머신러닝 발전에 많은 기여를 한다고 느껴집니다!

Releasing v1 of GPT-JT powered by open-source AI - TOGETHER

TOGETHER

Releasing v1 of GPT-JT powered by open-source AI - TOGETHER

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2022년 11월 30일 오후 2:22

댓글 0