Language modelling at scale
Deepmind
Hi, there! 12월 10일 ~ 12월 17일 간 나온 AI 주요 포스트와 논문을 추려보았습니다. 이번 주 내용은 두 개의 고퍼를 담고 있습니다. 세간을 떠들썩하게 한 Deepmind의 것과 타이밍이 다소 좋지 않았던(?) Amazon의 것. 고퍼는 땅다람쥐이자 미네소타 주의 상징인데 왜 고퍼라고 이름 지었는지 궁금하네요. (아시는 분?) 🐿 • 대규모 언어 모델링: Gopher, 윤리적 고려 사항과 웹 검색(https://deepmind.com/blog/article/language-modelling-at-scale) – 그들의 대규모 언어 모델에 대한 최신 연구를 간결하게 정리한 블로그 포스트. 아래 논문들도 확인하세요.(Gopher(https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf), 윤리, 사회적 위험(https://arxiv.org/abs/2112.04359), RETRO(https://arxiv.org/abs/2112.04426)) • GOPHER: 국지적 연속 시간 역학을 통한 그래프 구조를 사용하여 범주형 확률 예측하기(https://www.amazon.science/publications/gopher-categorical-probabilistic-forecasting-with-graph-structure-via-local-continuous-time-dynamics) • 빠르게 진화하는 유해 콘텐츠를 해결하기 위해 우리의 새로운 AI 시스템은 적응적인 형태로써 변화합니다.(https://ai.facebook.com/blog/harmful-content-can-evolve-quickly-our-new-ai-system-adapts-to-tackle-it/) – 샘플이 거의 또는 전혀 없는 상황에서 배포를 가속화하는, 일반적인 정책 설명으로부터의 퓨-샷 학습 방법론 • PASS: 그래프 컨볼루션 네트워크를 위한 성능 적응형 표본 추출 전략(https://blog.ml.cmu.edu/2021/12/03/pass-performance-adaptive-sampling-strategy-for-graph-convolutional-networks/) – GCN 손실을 표본 추출기로 전파하여 타깃 작업의 성능을 최대화하는, 더 크게 GCN을 확장하면서 정확도를 유지하는 방법 • 스크린 파싱을 통한 사용자 인터페이스 이해(https://blog.ml.cmu.edu/2021/12/10/understanding-user-interfaces-with-screen-parsing/) – 새롭고 흥미로운 분야입니다! 📱 • 통합된, 기반 모델을 향하여: 쌍을 이루지 않은 이미지와 텍스트로 트랜스포머 공동 사전 훈련하기(https://arxiv.org/abs/2112.07074) – 📝 🖼️ • GLaM: Mixture-of-Experts를 사용하여 언어 모델을 효율적으로 확장하기(https://arxiv.org/abs/2112.06905) – GPT-3에 비견할 정확도를 그것의 훈련 전력 소비량의 1/3만 써서 달성! 🌳 🌳 🌳 • ValueNet: 인간 가치 중심 대화 시스템을 위한 신규 데이터셋(https://arxiv.org/abs/2112.06346) – 학제 간 다양한 시각과 새로운 프레임워크(그리고 데이터셋)에 대해 알아보세요. • 텍스트 생성을 위한 비(非) 자기 회귀 디노이징 오토 인코더(https://arxiv.org/abs/2112.06749) – 두문자어로 하면 SUNDAE! 🍨 • 분수 위치 인코딩을 사용한, 좀 더 효율적인 삽입(Insertion) 트랜스포머(https://arxiv.org/abs/2112.06295) – 비록 여기에 SUNDAE 아이스크림은 없지만... 😢 위 내용은 Alexa AI Deep Learning Blog에서 발행하는 AI 주간 뉴스에서 발췌, 번역하고 개인적으로 내용을 추가하여 만든 것입니다.
2021년 12월 18일 오전 7:20