Hi, there! 11월 12일 ~ 11월 | 커리어리

Hi, there! 11월 12일 ~ 11월 19일 간 나온 AI 주요 포스트와 논문을 추려보았습니다. • Microsoft에서 대규모 분산 ML 파이프라인을 간단하게 구축할 수 있는 오픈 소스 라이브러리 SynapseML(舊 MMLSpark)을 론칭했습니다.(https://www.microsoft.com/en-us/research/blog/synapseml-a-simple-multilingual-and-massively-parallel-machine-learning-library/) 또한 딥러닝 거대 모델 개발을 위해 Mixture-of-Experts 아키텍처를 손쉽게 구현 가능하게 하는 라이브러리 Tutel을 오픈했습니다.(https://www.microsoft.com/en-us/research/blog/tutel-an-efficient-mixture-of-experts-implementation-for-large-dnn-model-training/) AWS에서는 다양한 백엔드에서 하이퍼 파라미터 옵티마이저를 분산으로 돌릴 수 있는 패키지 Syne Tune를 공개했습니다. (https://aws.amazon.com/blogs/machine-learning/run-distributed-hyperparameter-and-neural-architecture-tuning-jobs-with-syne-tune/) • 신경망 표현을 어떻게 비교해야 할까?(https://bair.berkeley.edu/blog/2021/11/08/similarity/) – 다운스트림 정확도 작업을 유사도 측도와 결합했습니다. 논문(https://arxiv.org/abs/2108.01661)도 참고하세요. • 사용 빈도가 낮은 구어에 대한 음성 인식(https://news.mit.edu/2021/speech-recognition-uncommon-languages-1104) – Wave2vec에 대한 PARP(가지치기, 조정 후 다시 가지치기). 논문(https://arxiv.org/abs/2106.05933)도 보시길. • 압축, 트랜스덕션과 생성: 자연어 생성 평가를 위한 통합 프레임워크(https://blog.ml.cmu.edu/2021/10/29/compression-transduction-and-creation-a-unified-framework-for-evaluating-natural-language-generation/) – 자연어 생성을 평가하는 또 다른 방법. 😊 논문(https://arxiv.org/abs/2109.06379)과 코드(https://github.com/tanyuqian/ctc-gen-eval)도 있어요. • "이 쇼트커트를 찾을 수 있나요?" 텍스트 분류에 대한 입력 Salience 방법의 충실도(Faithfulness)를 평가하기 위한 프로토콜(https://arxiv.org/abs/2111.07367) – 모델 피쳐를 평가하기 위해 "쇼트커트" 트리거로 합성 데이터를 생성합니다. ⤵️ • 분해된, 이산 된 표현을 사용하여 텍스트 없이 발화 감정 변환하기(https://arxiv.org/abs/2111.07402) – 번역으로써 발화의 감정을 변환합니다. • WMT21에서의 뉴스 및 생의학 작업을 위한 NVIDIA NeMo 영어 - 독어, 영어 - 노어 신경망 기계 번역 시스템(https://arxiv.org/abs/2111.08634) – 텍스트의 거의 모든 것을 다룹니다. 🇩🇪 🇷🇺 • 다국어 ASR을 위한 비지도 및 지도 공동 훈련(https://arxiv.org/abs/2111.08137) – 지도 및 비지도 손실을 동시에 주기. 위 내용은 Alexa AI Deep Learning Blog에서 발행하는 AI 주간 뉴스에서 발췌, 번역하고 개인적으로 내용을 추가하여 만든 것입니다.

Run distributed hyperparameter and neural architecture tuning jobs with Syne Tune | Amazon Web Services

Amazon Web Services

2021년 11월 28일 오전 8:25

댓글 0

함께 보면 더 좋은

OpenAI는 그 거대한 뉴럴 네트워크 모델을 어떻게 합리적인 시간 안에 학습시킬 수 있었을까요? 해답은 다양한 딥러닝 병렬 처리 기법들의 조합입니다. - 데이터 병렬 처리 - 서로 다른 GPU에서 배치의 서로 다른 하위 집합을 실행합니다. - 파이프라인 병렬 처리 - 서로 다른 GPU에서 모델의 서로 다른 레이어를 실행합니다. - 텐서 병렬 처리 - 여러 개의 GPU에 분할되는 행렬 곱셈처럼 단일 작업에 대한 수리적 연산을 나눕니다. - 전문가 혼합(MoE) - 각 레이어의 일부만 사용하여 각 샘플을 처리합니다. 초거대 모델에 대한 업계 관심에 높아지고 있고 산업 한가운데에 있는 저 또한 그러한 열기를 느끼고 있는데요. 때마침 지난 6월 9일 OpenAI는 병렬 처리 기법들에 대해 간결하지만, 종합적으로 다룬 글을 자사 블로그에 게재했습니다. 개론으로 삼을만한 아주 좋은 글이기에 직접 번역해봤습니다.

OpenAI는 뉴럴 네트워크 대형 모델을 어떻게 학습시키는가

Velog

추천 프로필

현직자에게 업계 주요 소식을 받아보세요.

현직자들의 '진짜 인사이트'가 담긴 업계 주요 소식을 받아보세요.

커리어리 | 일잘러들의 커리어 SNS