Farewell convolutions : )
Transformer가 자연어처리 분야에서 BERT, GPT 의 등장으로 기존 방법론들을 장악해버렸는데, 급기야는 이미지분류 문제까지 잘 해결할 수 있다는 논문이 ICLR 2021 에 제출되었습니다.
CNN을 활용한 이미지분류 아키텍처에서 CNN을 단순하게 Transformer의 encoder 블럭들로 대체한 구조를 갖고 있는데, ResNet 보다 적은 학습시간으로(즉, 비용이 적게 들면서도) 더 정확한 성능을 보여준다는 주장입니다.
이 논문의 conclusion에서 지적하는 바와 같이 아직 분류 문제에만 적용되었을 뿐 object detection 이나 segmentation 등 기존의 모든 기술들을 대체할 수 있는 수준은 아니지만, 왠지 어디선가는 이미 시도하고 있을 법 합니다.
아무래도 한동안은 Transformer가 딥러닝 계에서의 챔피언으로 군림하겠네요 ㅎㅎ