[GPT-3의 시사점 🦾]
GPT-3는 OpenAI가 개발한 딥러닝 계열의 언어 모델입니다. 인터넷에 공개된 엄청난 분량의 문서를 모델에 갈아 넣어 (엔지니어도 같이 갈아넣... 😔) 언어의 문법적 패턴을 학습합니다. 이때 모델의 용량(파라미터 개수)이 크면 클수록 더 많은 문서, 즉 데이터를 때려 넣어 더 다양하고 복잡한 패턴을 학습할 수 있습니다. 이렇게 탄생한 크고 아름다운(...) 모델에게 말을 걸면 그 문장에 대한 적절한 응답 패턴으로 마치 사람처럼 대답합니다. (스칼렛 요한슨 목소리로 들려주면 더 좋을 텐데, 후후. 😔)
GPT-3의 탄생은 저 같은 데이터 과학자에게 시사하는 바가 큽니다.
자연어 처리 문제에서 데이터가 많으면 많을수록, 모델이 크면 클수록 성능이 좋아진다는 건 모두 어렴풋이 알고 있었습니다. 그러나 이를 못하게 한 제3의 축이 있는데 그건 바로 엔지니어의 시간. 데이터와 모델을 아무리 키우고 싶어도 RNN 계열은 학습 속도가 느려서 성능을 확인하는데 한계가 있었죠. (엔지니어도 반기 평가받아야 되지 않겠니... 😔) 그래서 한정된 데이터와 모델 용량 안에서 모델 아키텍처를 잘 설계하면 최적의 성능이 나올 거라는 낭만주의가 지배했죠.
그런데 말입니다. 트랜스포머 계열 모델이 원활한 병렬 학습을 지원하면서 학습 속도를 개선시켰습니다. 제3의 축이 어느 정도 해결되면서 'Size does matter' 슬로건이 다시 대두됩니다. 여기에 방점을 찍은 게 GPT-3이죠. GPT-3는 엄청난 크기의 모델이고 엄청난 성능을 보여줬습니다.
이제 열강들의 군비 증강이 시작됐습니다. 디펜딩 챔피언 OpenAI에 Google, MS가 달려들고 있습니다. 각자 고질라 같은 초대형 모델을 가지고 말이죠. 이건 자본과 인력의 싸움입니다. 한때 낭만주의를 품고 일했던 개인 연구자 또는 규모가 작은 기업들은 이 전쟁에서 더 이상 낄 자리가 없어 보이네요.