테슬라 AI 시니어 디렉터 Andrej Karpathy가 33년 전 Yann LeCun이 만든 LeNet을 PyTorch로 최대한 똑같이 재구성해보면서 소회를 적었다. 대가에게 바치는 후배 뮤지
테슬라 AI 시니어 디렉터 Andrej Karpathy가 33년 전 Yann LeCun이 만든 LeNet을 PyTorch로 최대한 똑같이 재구성해보면서 소회를 적었다. 대가에게 바치는 후배 뮤지션의 헌정 앨범 같은 느낌이 드네, 껄껄껄... 재미있는 것은 그가 33년 전, 1989년과 지금을 비교해서 변모한 부분이 지금과 33년 후, 2055년에도 그대로 이어질 경우를 상상해서 쓴 내용이다. (오해를 미연에 방지하자면, Andrej가 미래를 예측한 것이 아니라 그냥 33년 전부터 지금까지의 변화가 33년 후에도 그대로 벌어진다고 가정하고 쓴 것이다.) - 아키텍처는 큰 의미에서 바뀌지 않을 것이다. 여전히 뉴런 층으로 구성한 미분 가능한 뉴럴 넷 아키텍처를 설정하고 역전파와 SGD로 종단 간 최적화를 할 것이다. - 그러나 데이터셋과 모델 크기는 엄청나게 팽창할 것이다. 약 1천만 배 정도. - 2022년 최신 모델을 주말 토이 프로젝트로 개인 컴퓨터에서 몇 초만에 돌려볼 수 있을 것이다. (내 손녀는 방학 숙제로 GPT-3 모델 만들어보기를 받아올지 모른다.) - 컴퓨팅 인프라의 개선 없이는 모델 자체 성능 향상에는 한계가 있을 것이다. 그러나 1989년과 분명히 다른 기조는 모델을 밑바닥부터 학습하는 경우가 극히 드물어지고 있다는 것이다. 2055년에는 지금보다 1천만 배 큰 뉴럴 넷 메가 브레인에게 여러 가지 태스크를 수행하라고 요청할 수 있을 것이다. 물론 직접 학습시킬 수도 있겠지만... 굳이 왜?