Jonas Kim

데이터 과학자, ML 엔지니어

Hi, there! 10월 8일 ~ 10월 15일 간 나온 AI 주요 포스트와 논문을 추려보았습니다. • Microsoft와 Nvidia가 협력하여 세계에서 가장 큰 규모의 언어 모델을 학습하였습니다.(https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b- the-worlds-largest-and-most-powerful-generative-language-model/) – 관련 없는 얘기지만 이제 Huggingface에서 AutoModel을 사용하여 몇 킬로그램의 이산화탄소를 대기에 배출했는지 알려줍니다. • Google이 멀티모달 AI를 사용하여 웹 검색을 개선할 계획입니다.(https://venturebeat.com/2021/09/29/how-google-plans-to-improve-web-searches-with-multimodal-ai/) • 점차 감소하는 딥러닝의 성과(https://spectrum.ieee.org/deep-learning-computational-cost) – 말하고 싶은 것이 많지만... 일단 이 기사의 주장은 (a) 별로 놀랍지 않습니다. 즉, 성능이 점근선에 다다른 경우 성능을 추가 향상하기 위해서는 대량의 계산이 필요합니다. 이는 신경망 훈련의 계산 복잡도 때문입니다. 무어의 법칙은 전혀 관계없습니다. (b) 일반화할 수 없습니다. 딥러닝의 적용 가능성은 문제에 따라 달라집니다. • MLIM: 마스킹 언어 및 이미지 모델링을 사용한 비전과 언어 모델 사전 훈련(https://arxiv.org/abs/2109.12178) – Amazon에서 나온 멀티모달 논문! • 가우스 프로세스를 사용하여 잡음이 있는 데이터에서 다양체 추론하기(https://arxiv.org/abs/2110.07478) – 위상 데이터 분석에 관심이 있다면 재미있게 읽을 수 있습니다. • 미니맥스 비 볼록 최적화 문제에서 3차 규제항이 있는 기울기 하강-상승법을 통해 안장점 벗어나기(https://arxiv.org/abs/2110.07098) – 안장점 벗어나는 방법론에 관한 논문들이 거의 격주마다 나옵니다. 그러나 현실 세계에서 안장점에서 벗어나기란 결코 쉽지 않습니다... 제가 알고 싶은 것은 안장점에 위치할 때 다른 최솟값에 위치할 때와 비교해서 일반화 가능성이 어떻게 영향을 받는지에 관한 것입니다. 즉, 네트워크가 일반화되는지, 과적합되는지? SGD의 경우 전역 최솟값보다 지역 최솟값에 맞추는 편이 더 낫다는 것을 알고 있습니다. • 학습된 규제자의 하이퍼네트워크를 사용하여 MIMO(다중 입력 다중 출력)을 강건하게 탐지하기(https://arxiv.org/abs/2110.07053) • 순위 학습을 통한 언어 모델링(https://arxiv.org/abs/2110.06961) – "N-gram이 뛰어난 교사로 작용하여 (...) BERT에 견줄만한 성능을 달성합니다." "Born Again"이라는 모델 클래스를 여기서 처음 들어봤네요. • 차등 개인 정보 보호에 대한 언어 모델 미세 조정(https://arxiv.org/abs/2110.06500) • 모델 설명이 블랙박스 모델 교정 작업에 유용할까?(https://arxiv.org/abs/2110.07586) • 신경망 이론적 해석 모델의 비합리성(https://arxiv.org/abs/2110.07550) • 사회적 이익을 위해 언어 기술 설계하기: 가지 않은 길(https://arxiv.org/abs/2110.07444) – 이것은 상당수의 자료가 강력하게 뒷받침하는, 매우 중요한 의견입니다. 저자들이 정말 좋은 지적을 하는 것 같네요. 이 분야는 아직 초기 단계이기 때문에 이처럼 중요한 논문을 챙겨보는 걸 추천드립니다. • Looper: 제품 결정을 위한 엔드-투-엔드 ML 플랫폼(https://arxiv.org/abs/2110.07554) – 올해의 유행어 "MLOps"를 저자가 논문에서 한 번도 언급하지 않은 점, 감사드립니다. • Carousel Memory: 지속적인 학습을 위한 에피소드 메모리 설계의 재검토(https://arxiv.org/abs/2110.07276) – 아주 대담한 시도예요. 저를 사로잡은 논문입니다. • CNN 내 Out-of-Distribution 탐지 작업에 Mahalanobis를 사용하지 않는 이유(https://arxiv.org/abs/2110.07043) – 그리고 대신 사용할 수 있는 것. 저를 사로잡은 또 다른 논문입니다. 사실, CNN의 OOD 작업은 꽤 고통스럽습니다. Mahalanobis로 측정할 생각은 하지도 못했습니다. (Wasserstein이 더 합리적이지 않을까요?) • 딥러닝을 통한 압축 시 Out-of-Distribution에 대한 강건성(https://arxiv.org/abs/2110.07007) – 이건 꽤나 어려운 문제입니다. • WAFFLE: 개인화된 연합 학습을 위해 가중 평균하기(https://arxiv.org/abs/2110.06978) • Proximal 기울기 하강-상승법: KL 기하학에서의 변수 수렴(https://arxiv.org/abs/2102.04653) – 엄밀히 말하면 이론 관련 논문이지만 정말 재미있게 읽었습니다. KL 기하학은 볼록하지 않은 상황을 모델링하는 데 자주 사용됩니다. 볼록성이 정의되는 경우가 ("볼록 함수는 P가 성립한다") 반대의 경우를 ("비 볼록 함수는 !P가 성립한다") 비교할 때 훨씬 쉽습니다. 이것이 비 볼록 문제를 모델링하기 위해 여러 가지 기하학적 접근이 시도되는 이유입니다. 이 문제가 문자 그대로 모든 기계 학습 애플리케이션에 얼마나 중요한지를 감안할 때 우리는 이 문제를 더욱 잘 이해하고 있어야 맞습니다. 하지만 현실은 그렇지 않죠. 이 논문에는 "이것은 미니맥스 비 볼록 최적화를 위해 변수 수렴을 다룬, 최초의 이론적 성과입니다."라는 아주 멋진 문구가 쓰여있습니다. 위 내용은 Alexa AI Deep Learning Blog에서 발행하는 AI 주간 뉴스에서 발췌, 번역하고 개인적으로 내용을 추가하여 만든 것입니다.

Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model - Microsoft Research

Microsoft Research

다음 내용이 궁금하다면?

이미 회원이신가요?

2021년 10월 19일 오전 3:19

저장 20 • 조회 1,048

함께 읽은 게시물

장홍석

스페이스오디티 부대표/CPO

15시간 전

< ‘나다움’을 잃는 순간, 모든 것을 잃는다 >

1. 당신 자신을 믿어라. 결코 모방하지 마라. 매 순간 자기 재주를 내보여라. 평생에 걸쳐 쌓아온 누적된 힘을 보여줘라.

댓글 1 • 저장 2 • 조회 310

강재상

스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

18시간 전

내가 진심으로 창업가이자 사업가로 리스펙트하고 사업피봇팅시 직접 엔젤투자를 한 홀릭스 박태영 대표가 동국대학교 캠퍼스타운이 IT동아와 함께 ‘2025년 스케일업 프로그램’에서 우리 회사가 사업 분석 컨설팅을 맡았던 포플러플래닛의 전문가 컨설팅을 맡아 진행했다. 포플러플래닛 대표님께 많은 도움이 되었을거라 믿는다.

[스케일업] 포플러플래닛 [1] 홀릭스 “큰 시장만 좇지 말고 브랜드 강점 내세워 돌파해야”

동아일보

저장 1 • 조회 246

강재상

스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

19시간 전

회사 때려치고 사업이나 한번 해볼까?

회

[B라운지] (직장인 이후의 삶을 위한) 사업 아이디어 선명하게 다듬기 : PBR

www.pbr.kr

•

저장 11 • 조회 618

기묘한

트렌드라이트 발행인

4일 전

📺'뤼튼'의 이상한 광고, 만든 사람에게 직접 의도를 들어봤습니다

이

“이래도 되나?” – 뤼튼의 이상한 광고 만들기 – 제일 매거진

magazine.cheil.com

저장 4 • 조회 448

SNEW 스뉴

start-up, VC and more

2일 전

미들캡 딜 가격에도 영향을 미치고 있다. 준오헤어의 초기 매각가는 5000억원대로 거론됐다가 현재 8000억원대로 치솟았다. 블랙스톤 KKR 칼라일 등 글로벌 대형 PEF들이 관심을 보이면서 몸값이 올랐다는 게 업계의 후문이다. 한 IB 업계 관계자는 “글로벌 PEF들이 과거에는 조 단위 이상 대형 딜에만 집중했지만 최근에는 투자집행이 중요한 만큼 1조원 안팎의 거래라도 성장성이나 시너지가 있다고 판단되면 적극적으로 들여다보는 분위기”라고 전했다.

글로벌 PEF의 미들캡 공습…설 자리 좁아지는 토종 PEF

n.news.naver.com

조회 321

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

6일 전

“왜 나는 욱하고 말았을까?” “왜 나는 그렇게 화를 분출했을까?” 회의 중, 메신저에서, 피드백을 주고받을 때 리더의 감정 폭발은 일순간에 리더십 전체를 흔들어놓는다. 그리고 회의가 끝나고 긴장이 풀리면 리더는 ‘지적의 정당성’과는 별개로 자신의 감정적 태도를 후회하고 자책한다.

“왜 나는 오늘도 또 욱하고 화냈을까” [김성회의 리더십 코칭]

n.news.naver.com

저장 3 • 조회 551

주간 인기 TOP 10

권태관 NAVER 소프트웨어 엔지니어

6년간의 토이프로젝트 여정을 마무리하며 - 기술블로그 구독서비스

psmon 웹노리라이터

DDD와 AI

Arawn Park Senior Engineer & Engineering Lead

올해로 개발자 생활이 햇수로 20년째다

유용우(요우) NAVER 백엔드 개발자

간만에 재밌게 읽은 기술 포스트 여름 이벤트 관련 개발 회고와 높

이원형 라인플러스 소프트웨어 엔지니어

고용노동부에서 주관하는 청년미래플러스 3기를 모집 중이라고 합니다

장홍석 스페이스오디티 부대표/CPO

< 가장 예쁜 사람이 아니라, 1등 할 사람에게 투표하라 >

골빈해커 Chief Maker

아직 나도 정립되지 않은 상태이긴한데, 실무에서의 바이브 코딩은

석민 커리어 코치

길은 잃은 이력서

SNEW 스뉴 start-up, VC and more

“실리콘밸리의 힘은 개인의 자율과 책임을 극대화한 것에 있다. 이

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

데이터 이력서 템플릿 + 작성 가이드를 사용해보세요.

댓글 0

함께 읽은 게시물

< ‘나다움’을 잃는 순간, 모든 것을 잃는다 >

회사 때려치고 사업이나 한번 해볼까?

📺'뤼튼'의 이상한 광고, 만든 사람에게 직접 의도를 들어봤습니다

주간 인기 TOP 10

추천 프로필