AI, ML을 어깨 너머로만 공부하고 지켜보는 입장에서 BERT, GPT3와 같은 AGI(Artificial General Intelligence, 범용 인공지능) 모델이 실용적으로 어떤 의미가 있는지 궁금할 수 있다. 초거대 데이터셋을 갈아넣어서 수천억 개 파라미터를 가진 모델인 건 알겠는데, 그 거대한 모델을 우리 솔루션에 맞게 쓸 수는 없는 거잖아? 이를테면 AGI 모델을 우리 콜센터 전용으로 쓰고 싶다면, 초거대 데이터셋에 우리 데이터를 넣어서 다시 학습시켜야 되는 것 아닌가? 파라미터가 수천억 개라는데 우리가 그 학습 비용을 감당할 수 있을까? 사실, 잘 만들어진 모델을 각각의 엔터프라이즈 솔루션에 맞게 '튜닝'하는 방법론은 이미 존재한다. 이 분야에 관심이 있다면 들어봤을 전이 학습(Transfer Learning)이 그것. 사전에 학습된 모델은 수많은 레이어를 가진 복잡한 신경망으로 구성되어 있지만, 어쨌든 이 모델의 출력 계층은 정해져 있다. 전이 학습은 사전 학습된 모델의 출력 레이어를 '들어내' 버린다. 그리고 엔터프라이즈 솔루션에 맞는 새로운 데이터셋과 이를 학습하기 위한 새로운 레이어를 추가해서 학습시키는데, 이 과정에서 사전 학습된 모델의 출력 레이어 이전은 새로 학습시키지 않는다(즉, 고정된다. 이렇게 고정되는 신경망의 마지막 레이어를 병목Bottleneck 레이어라고 부름). 즉, '올라타고자' 하는 모델이 아무리 거대하더라도 이를 다시 학습시킬 필요 없이 그대로 사용하면 된다는 것. 비유하자면, 개/고양이/호랑이 등의 동물을 보고 분류할 줄 아는 아이에게 새로운 동물인 미어캣을 가르칠 때 모든 동물을 분류하는 법을 새로 가르칠 필요는 없다는 것. 아이의 뇌는 이미 일반적인 동물을 분류할 수 있는 신경망을 갖추고 있고, 여기에 미어캣 사진 데이터만 주고 학습시키면 된다.

텐서플로 허브와 전이학습 | TensorFlow Core

TensorFlow

텐서플로 허브와 전이학습 | TensorFlow Core

2021년 1월 18일 오전 1:28

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!