[ENG SUB] BART - 진명훈
YouTube
커리어리 친구들, 딥러닝 논문읽기 모임에서 공개한 Facebook AI에서 2020 ACL에서 발표한 BART : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 논문을 쉽게 설명한 동영상을 공유합니다. BART는 비선점형 트랜스포머(Bidirectional transformer) 와 자기 회귀(AutoRegressive) 트랜스포머가 결합된 모델입니다. 디노이징 오토인코더 방식으로 이미 학습을 끝낸(pretrain) 데이터셋을 가지고 있습니다. 따라서, BART는 트랜스포머 기반의 NMT(Neural Machine Translation)구조로 단순하지만, 양방향 인코더 부분에는 BERT를, 디코더 부분은 Open AI의 GPT를 사용 하였습니다. BART는 원본 문장의 순서를 무작위로 섞고, 텍스트의 범위에서 단일 마스크 토큰으로 대체되는 새로운 infilling scheme을 사용 하였으며 이런 방법으로 BART는 언어에 대한 pretrain만으로 back-translation 시스템에서 1.1 BLEU score 향상을 이루어 냈습니다! 이번 논문은 자연어 처리팀의 진명훈님이 리뷰로 자세히 잘 설명해 주었으니 동영상을 꼭 보시기 바랍니다. 참고로 용어에 대해 모르시는 분들을 위하여 간단한 정의만 더 포함시키겠습니다. 1. 트랜스포머(Transformer)는 제가 예전에 구글에서 번역해 놓은 것이 있는데, 이를 참조하시면 좋습니다. 쉽게 말해 자연어 처리에서 문장의 각 단어(워드) 임베디등 할 때, 인코더를 참조해서 신경망을 구축하고 Self-attention(Weight를 주는 방식)으로 문장의 모든 관계를 연관시켜 아웃풋 타겟을 추론하는 방식을 말합니다. https://brunch.co.kr/@synabreu/94 2. BERT는 입력을 받을때 RNN 처럼 순차적으로 받는 것이 아니라 동시에 병렬적으로 양방향으로 받아 들여 처리하는 딥러닝의 자연어 처리 알고리즘입니다. https://brunch.co.kr/@synabreu/83 3. 자기회귀(Autoregressive)는 과거의 자기 자신을 사용하여 현재의 자신을 예측하는 모델이다. 일반적으로 시계열, 텍스트 등 '시간종속성'을 갖는 데이터에 많이 사용되지만, 이전에는 이미지 데이터를 학습하는데도 많이 사용이 되었습니다. 저의 코멘트: 최근 자연어 처리에서는 트랜스포머 기반이 절대로 지배적이며, openAI의 GPT 와 구글의 BERT의 양대 산맥으로 서로 경쟁하는 양상입니다. 이에 Facebook 은 이를 섞어서 더욱더 발전시켰는데, 이를 BART라고 정의했습니다. * 발표 자료 : https://www2.slideshare.net/.../bart-denoising... * 리뷰된 논문 : https://www.aclweb.org/anthology/2020.acl-main.703/ * 유튜브 채널 : https://www.youtube.com/channel/UCDULrK2OJsiDhFroa2Aj_LQ
2021년 1월 10일 오전 5:41