OpenAI에서 지난 주 발표한 '인공신경망의 멀티모달 뉴런'에 대한 블로그. 멀티모달은 쉽게 이야기하자면 여러 감각 영역을 포괄할 수 있는 신경망의 특성을 가리키죠. 사진을 인식해서 여기 자연어
OpenAI에서 지난 주 발표한 '인공신경망의 멀티모달 뉴런'에 대한 블로그. 멀티모달은 쉽게 이야기하자면 여러 감각 영역을 포괄할 수 있는 신경망의 특성을 가리키죠. 사진을 인식해서 여기 자연어 캡션을 붙이는 신경망이나, 텍스트를 입력받아 그에 해당하는 이미지를 만들어내는 Dall-E 등이 대표적입니다. 이 블로그는 OpenAI가 1월 발표했던 범용 컴퓨터 비전 시스템인 CLIP 모델의 뉴런을 분석한 것입니다. CLIP은 자연어를 통해 지도학습시켜서 시각적 개념을 학습시킨 신경망으로, 전형적인 멀티모달 모델이죠(https://openai.com/blog/clip/). 위에서 예를 든 '사진을 인식해서 자연어 캡션을 붙이는' 작업을 기가 막히게 해내는 신경망이기도 합니다. 만들어진 CLIP 모델 신경망의 많은 뉴런 중에 특정 단어에 해당하는 뉴런을 찾아내는 것이 요지인데요, 예를 들어 'spider' 글자 이미지, 또는 만화 속 스파이더맨의 이미지에 반응하는 뉴런을 찾아내면 이것이 '스파이더맨 뉴런'이라고 찾아내는 것입니다. 블로그에서는 이러한 방식으로 여러 가지 뉴런('summer' 뉴런, 'Christmas' 뉴런, 'India' 뉴런 등)을 찾아내서 해당 뉴런의 특징 시각화까지 붙여 놨는데, 대단한 추상 예술 작품같이 보입니다. 연구의 접근 방식이 실제 뇌과학의 접근 방식과 유사하다는 점이 굉장히 인상적인데, 이것이 설명 가능한 AI(Explanable AI)의 좋은 사례가 될 것 같다는 생각과 함께 인공신경망이 점차 생물학적 신경망과 비슷해져가는 것이 아닌가 하는 싸한 느낌도 드네요.