<< 트랜스포머 액셀레이터>>
커리어리 친구들, 현재 하이퍼스케일 AI를 표방하는 모든 알고리즘이 이 트랜스포머가 메인 엔진이라는 것을 이미 아시죠? 오늘은 DeepLearning.AI 뉴스레터에 보내어 온 내용을 간추려 보았습니다.
몇 주전 엔비디아는 2022년 GTC 컨퍼런스에서 GPT-3과 같은 대규모 언어 모델의 기반인 트랜스포머 아키텍처를 가속화하도록 설계된 칩을 발표했습니다. 이 칩은 H100 GPU로 엔비디아의 이전 주력 제품인 A100(또는 시장에 나와 있는 다른 칩)보다 몇 배나 빠르게 트랜스포머 모델을 훈련할 수 있는 새로운 기능을 가진 칩입니다.
이 칩의 동작원리에 대해 좀 더 기술적으로 살펴 본다면, 트랜스포머 네트워크는 GPT-3의 1,750억 개 파라미터에서 우다오(Wu Dao, 중국 하이퍼스케일 AI)의 1조 7,500억 개 파라미터로 크기가 팽창하여 모델을 훈련과 추론을 위해 더 많은 계산이 필요합니다. 따라서, 호퍼(Hopper)로 알려진 H100의 기본 칩 설계에는 이러한 모델을 보다 효율적으로 실행하도록 설계된 소위 트랜스포머 엔진이 포함되고 있다고 생각하세요.
🦄 트랜스포머 엔진은 16비트와 8비트 정밀도(floating point) 사이를 자동으로 전환하여 일부 계산을 더 빠르게 실행하고 에너지를 덜 소비할 수 있도록 합니다.
🦄 낮은 정밀도로 훈련하려면 기울기(Gradient) 통계(손실 및 폭발)를 추적하고 손실 스케일링 계수를 조정해야 합니다. 트랜스포머 엔진은 라이브러리 내부에 이러한 복잡성을 숨깁니다.
🦄 또한 이 칩은 메모리 사용량을 절반으로 줄여 데이터를 처리 코어와 주고받는 데 소요되는 시간을 줄입니다.
벤치마크 테스트에서 3,950억 파라미터의 엑스퍼트 혼합 모델은 8천개의 H100에서 실행하는 데 20시간이 걸렸지만 동일한 수의 A100에서 실행하는 데 7일이 걸렸습니다. 그러니깐 새 H100 칩이 엄청 시간 절약을 해준다고 엔비디아는 주장합니다.
또한 엔비디아의 메가트론(Megatron)을 기반으로 하는 챗봇은 A100보다 H100에서 실행되는 속도가 최대 30배 더 빠른 출력을 생성했습니다. 엔비디아는 4,608개의 H100 칩을 AI 훈련을 위한 세계에서 가장 빠른 시스템으로 선전하는 훈련용 슈퍼컴퓨터에 연결할 계획입니다. 그러나 엡니디아는 이러한 특수 AI 칩의 확실한 리더이지만 현재 여러 경쟁업체가 동일한 시장을 놓고 경쟁하고 있습니다. 경쟁 업체에 대해 정리하자면 다음과 같습니다.
🐞 구글의 TPU(Tensor Processing Unit)은 회사의 TensorFlow 프레임워크를 사용하여 개발된 모델을 가속화합니다.
🐞 아마존의 인퍼런시아(Inferentia)는 AWS 클라우드 컴퓨팅 플랫폼의 추론에 중점을 두고 있으며 Trn1은 모델 훈련용으로 제작되었습니다.
🐞 AMD의 인스틴트(Instinct) GPU는 엔비디아급 성능을 향해 가고 있으며 지원 소프트웨어는 일부 경쟁자보다 통합하기 쉽습니다.
🐞 한편 선두주자인 세레브라스(Cerebras)와 그래프코어(Graphcore)를 포함하여 스타트업이 엔비디아의 뒤를 쫓고 있습니다.
끝으로 트랜스포머는 언어용 인공지능은 현재 산업에서 물론 시각, 이미지 생성 및 생물 의학을 포함한 확장 영역의 영역에서 엄청난 발전을 주도했습니다. 이러한 모델을 더 빨리 훈련시키는 능력은 이 다재다능한 아키텍처 덕분입니다. 최근 기존의 칩은 18개월마다 처리 능력이 두 배로 증가할 것으로 예측하는 무어의 법칙을 따라잡기 위해 고군분투하고 있습니다. 그러나 인공지능 칩은 이 법칙을 깨고 성능면에서 크게 앞지르고 있습니다. 이것이 인공지능 칩을 파헤쳐야 하는 또 다른 이유라고 생각합니다.