Community

커리어리 친구들, 주말과 휴일에 편안하게 보실 수 있는 인공지능 논문 한 편 준비 했습니다. 지난주 UC 버클리 인공지능 연구실 BAIR 로 부터 받은 뉴스레터에 트랜스포머에 대해 흥미로운 내용이

커리어리 친구들, 주말과 휴일에 편안하게 보실 수 있는 인공지능 논문 한 편 준비 했습니다. 지난주 UC 버클리 인공지능 연구실 BAIR 로 부터 받은 뉴스레터에 트랜스포머에 대해 흥미로운 내용이 담겨져 틈틈히 논문과 관련된 내용을 읽고 정리해 보았습니다. 트랜스포머는 최근에 GPT-3와 같은 인기있는 인공지능의 기술에 근간이 되는 구글의 오픈 소스이자 딥러닝 논문이기도 합니다. 대규모 모델을 사용하는 일반적인 추세는 많은 양의 훈련 데이터에 대해 트랜스포머를 훈련시킨 다음 다운 스트림 작업에서 미세 조정하는 것입니다. 이를 통해 모델은 대규모 데이터셋에 대해 훈련된 일반화 가능한 고수준 임베딩을 활용하여 작은 작업 관련 데이터셋에 오버핏팅을 방지 할 수 있습니다. 이 논문에서 높은 수준의 임베딩을 전송하는 대신 큰 이미지 데이터셋에 대해 사전 훈련합니다. 또한 작은 이미지 데이터셋에 대해 미세 조정하는 대신 중간 계산 모듈을 전송하는 새로운 설정을 연구합니다. 그런데 대규모 언어 데이터 세트에 대해 사전 훈련하고 작은 이미지 데이터 세트에서 미세 조정을 수행 할 수 있습니다. 어텐션 메커니즘이 훈련 양식에 특화되어 있음을 시사하는 기존의 아이디어와 달리, 셀프-어텐션(self-attention) 레이어가 미세 조정없이 다른 양식으로 일반화 될 수 있음을 이 논문을 통해 발견했습니다. 원문 논문 링크와 구현한 깃허브 소스 그리고 논문에 자주 사용된 메타 학습, 제로샷 러닝, 오토ML, 멀티 모달과 LSTM, 그리고 셀프 어텐션까지 용어를 쉽게 제가 이해 한 만큼 정리했으며, 관련된 링크도 추가 했으니 스터디할 때 많은 도움이 되실 겁니다.

알림

알림이 없습니다