Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model - Microsoft Research
Microsoft 365 Blog
Hi, there! 10월 8일 ~ 10월 15일 간 나온 AI 주요 포스트와 논문을 추려보았습니다. • Microsoft와 Nvidia가 협력하여 세계에서 가장 큰 규모의 언어 모델을 학습하였습니다.(https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b- the-worlds-largest-and-most-powerful-generative-language-model/) – 관련 없는 얘기지만 이제 Huggingface에서 AutoModel을 사용하여 몇 킬로그램의 이산화탄소를 대기에 배출했는지 알려줍니다. • Google이 멀티모달 AI를 사용하여 웹 검색을 개선할 계획입니다.(https://venturebeat.com/2021/09/29/how-google-plans-to-improve-web-searches-with-multimodal-ai/) • 점차 감소하는 딥러닝의 성과(https://spectrum.ieee.org/deep-learning-computational-cost) – 말하고 싶은 것이 많지만... 일단 이 기사의 주장은 (a) 별로 놀랍지 않습니다. 즉, 성능이 점근선에 다다른 경우 성능을 추가 향상하기 위해서는 대량의 계산이 필요합니다. 이는 신경망 훈련의 계산 복잡도 때문입니다. 무어의 법칙은 전혀 관계없습니다. (b) 일반화할 수 없습니다. 딥러닝의 적용 가능성은 문제에 따라 달라집니다. • MLIM: 마스킹 언어 및 이미지 모델링을 사용한 비전과 언어 모델 사전 훈련(https://arxiv.org/abs/2109.12178) – Amazon에서 나온 멀티모달 논문! • 가우스 프로세스를 사용하여 잡음이 있는 데이터에서 다양체 추론하기(https://arxiv.org/abs/2110.07478) – 위상 데이터 분석에 관심이 있다면 재미있게 읽을 수 있습니다. • 미니맥스 비 볼록 최적화 문제에서 3차 규제항이 있는 기울기 하강-상승법을 통해 안장점 벗어나기(https://arxiv.org/abs/2110.07098) – 안장점 벗어나는 방법론에 관한 논문들이 거의 격주마다 나옵니다. 그러나 현실 세계에서 안장점에서 벗어나기란 결코 쉽지 않습니다... 제가 알고 싶은 것은 안장점에 위치할 때 다른 최솟값에 위치할 때와 비교해서 일반화 가능성이 어떻게 영향을 받는지에 관한 것입니다. 즉, 네트워크가 일반화되는지, 과적합되는지? SGD의 경우 전역 최솟값보다 지역 최솟값에 맞추는 편이 더 낫다는 것을 알고 있습니다. • 학습된 규제자의 하이퍼네트워크를 사용하여 MIMO(다중 입력 다중 출력)을 강건하게 탐지하기(https://arxiv.org/abs/2110.07053) • 순위 학습을 통한 언어 모델링(https://arxiv.org/abs/2110.06961) – "N-gram이 뛰어난 교사로 작용하여 (...) BERT에 견줄만한 성능을 달성합니다." "Born Again"이라는 모델 클래스를 여기서 처음 들어봤네요. • 차등 개인 정보 보호에 대한 언어 모델 미세 조정(https://arxiv.org/abs/2110.06500) • 모델 설명이 블랙박스 모델 교정 작업에 유용할까?(https://arxiv.org/abs/2110.07586) • 신경망 이론적 해석 모델의 비합리성(https://arxiv.org/abs/2110.07550) • 사회적 이익을 위해 언어 기술 설계하기: 가지 않은 길(https://arxiv.org/abs/2110.07444) – 이것은 상당수의 자료가 강력하게 뒷받침하는, 매우 중요한 의견입니다. 저자들이 정말 좋은 지적을 하는 것 같네요. 이 분야는 아직 초기 단계이기 때문에 이처럼 중요한 논문을 챙겨보는 걸 추천드립니다. • Looper: 제품 결정을 위한 엔드-투-엔드 ML 플랫폼(https://arxiv.org/abs/2110.07554) – 올해의 유행어 "MLOps"를 저자가 논문에서 한 번도 언급하지 않은 점, 감사드립니다. • Carousel Memory: 지속적인 학습을 위한 에피소드 메모리 설계의 재검토(https://arxiv.org/abs/2110.07276) – 아주 대담한 시도예요. 저를 사로잡은 논문입니다. • CNN 내 Out-of-Distribution 탐지 작업에 Mahalanobis를 사용하지 않는 이유(https://arxiv.org/abs/2110.07043) – 그리고 대신 사용할 수 있는 것. 저를 사로잡은 또 다른 논문입니다. 사실, CNN의 OOD 작업은 꽤 고통스럽습니다. Mahalanobis로 측정할 생각은 하지도 못했습니다. (Wasserstein이 더 합리적이지 않을까요?) • 딥러닝을 통한 압축 시 Out-of-Distribution에 대한 강건성(https://arxiv.org/abs/2110.07007) – 이건 꽤나 어려운 문제입니다. • WAFFLE: 개인화된 연합 학습을 위해 가중 평균하기(https://arxiv.org/abs/2110.06978) • Proximal 기울기 하강-상승법: KL 기하학에서의 변수 수렴(https://arxiv.org/abs/2102.04653) – 엄밀히 말하면 이론 관련 논문이지만 정말 재미있게 읽었습니다. KL 기하학은 볼록하지 않은 상황을 모델링하는 데 자주 사용됩니다. 볼록성이 정의되는 경우가 ("볼록 함수는 P가 성립한다") 반대의 경우를 ("비 볼록 함수는 !P가 성립한다") 비교할 때 훨씬 쉽습니다. 이것이 비 볼록 문제를 모델링하기 위해 여러 가지 기하학적 접근이 시도되는 이유입니다. 이 문제가 문자 그대로 모든 기계 학습 애플리케이션에 얼마나 중요한지를 감안할 때 우리는 이 문제를 더욱 잘 이해하고 있어야 맞습니다. 하지만 현실은 그렇지 않죠. 이 논문에는 "이것은 미니맥스 비 볼록 최적화를 위해 변수 수렴을 다룬, 최초의 이론적 성과입니다."라는 아주 멋진 문구가 쓰여있습니다. 위 내용은 Alexa AI Deep Learning Blog에서 발행하는 AI 주간 뉴스에서 발췌, 번역하고 개인적으로 내용을 추가하여 만든 것입니다.
2021년 10월 19일 오전 3:19