초거대 AI 모델들이 탄생한 2021년 - MIT Technology Review
MIT Technology Review
< 초거대 AI 모델들이 탄생한 2021년 > 2021년은 초거대 인공지능(AI) 모델들이 탄생한 한 해였다. 미국의 인공지능(AI) 연구소인 오픈AI(OpenAI)가 2020년 6월에 초거대 AI 모델 ‘GPT-3’를 발표했을 때 이것의 강력한 언어 처리 능력은 사람들에게 ‘불쾌감’마저 안겨 줄 정도였다. 종래의 다른 언어처리 인공 신경망과 비교할 수 없을 만큼 규모가 거대한 GPT-3는 그럴듯한 문장을 생성하고, 인간과 대화하고, 코드를 자동으로 완성하기까지 했다. GPT-3 등장을 계기로 AI 업계에는 규모가 더 클수록 성능도 더 뛰어나다는 인식이 확산되었다. GPT-3에는 학습에 사용한 온라인 텍스트에 내재된 편향과 혐오 표현들을 그대로 모방하고, 규모가 너무 커서 학습하는 데 지속 불가능할 정도로 엄청난 컴퓨팅 파워가 필요하다는 문제점 등이 있다. 하지만 그래도 어쨌든 MIT 테크놀로지 리뷰는 GPT-3를 2020년의 가장 위대한 기술로 꼽은 바 있다. 그러나 GPT-3가 AI 업계에 미친 영향은 2021년에 더욱 분명해졌다. 올해 수많은 기술 기업들과 최고의 AI 연구실들은 다양한 거대 AI 모델을 만들어냈고, 그중 다수가 규모와 성능 면에서 GPT-3를 뛰어넘었다. 과연 이러한 AI 모델들은 앞으로 얼마나 더 커질 수 있고, 그에 따라 얼마나 큰 비용이 필요할까? GPT-3는 뛰어난 성능뿐만 아니라 그런 성능을 구현하기 위해 도입한 방식 덕분에 전 세계의 관심을 사로잡았다. GPT-3가 보여주는 강력한 성능, 그중에서도 특히 학습하지 않은 말까지도 일반화할 수 있는 능력은 더 성능이 뛰어난 알고리즘 덕분에 가능해진 것이 아니라(물론 GPT-3는 구글이 2017년에 발명한 ‘트랜스포머(transformer)’라는 신경망을 사용한다), GPT-3의 엄청난 크기 덕분이다. 오픈AI의 연구원이자 GPT-3 개발자인 재러드 카플란(Jared Kaplan)은 지난 12월에 있었던 AI 콘퍼런스 ‘NeurIPS’의 공개 토론회에서 “우리는 우리에게 새로운 아이디어가 필요하다고 생각했지만 규모를 키우는 것만으로도 우리가 원하는 바를 구현할 수 있었다”고 밝혔다. 모델의 크기가 커진다는 것은 어떤 의미일까? 모델의 크기, 즉, 학습된 신경망의 규모는 신경망이 가진 파라미터(parameter, 매개변수) 수로 측정할 수 있다. 개략적으로 말해서 AI 모델의 파라미터 수가 많을수록 모델이 학습 데이터에서 더 많은 정보를 받아들일 수 있고, 새로운 데이터에 대해서도 더 정확한 예측을 할 수 있다는 의미이다. 자세한 내용은 링크 참고, 플리즈~ ^^
2022년 1월 5일 오전 5:15