Jonas Kim

데이터 과학자, ML 엔지니어

[딥러닝의 3가지 미스터리: 앙상블, 지식 증류 그리고 자가 증류 🕵️‍♂️] 세상에는 진상이나 원인이 밝혀지지 않은 미스터리가 많습니다. 리만 가설이 사실인지, 토마토 유전자가 왜 인간보다 많은지, 사토시 나카모토가 누군지, 내가 술에 취해서 짠 코드가 왜 에러 없이 도는지... 😔 풀리지 않는 의문 투성이죠. 괜찮습니다. 세상사 원래 불명확한 토대 위에서 굴러가는 법이니깐요. 딥러닝은 탁월한 성능을 자랑하지만 작동 원리에 관한 이론적 기초를 이제 막 쌓아가는 실정입니다. 그중 흥미로운 영역으로 앙상블, 지식 증류 그리고 자가 증류를 꼽을 수 있겠죠. 교수님 앞에서 발음하면 스트레스가 풀리는 데이터셋, CIFAR-100에 대해 WiderResNet-28-10 아키텍처로 학습합니다. 다른 조건 변경 없이 무작위 시드 값으로 10번 훈련하면 테스트 정확도 평균 81.51%, 표준편차 0.16%로 성능이 무척 안정적으로 나옵니다. (1) 이때 1개 모델 대신 10개 모델 출력 값을 평균 내어 분류하면 정확도가 84.87%로 향상됩니다. 잘 알려진 앙상블 기법이죠. (2) 앙상블은 추론 시간이 오래 걸립니다. 그래서 나온 게 지식 증류 기법입니다. 앙상블 출력과 일치하도록 단일 모델을 훈련시킵니다. 즉 실제 레이블 "트와이스 사나"를 사용하는 게 아니라 앙상블 출력 값인 “트와이스 사나 80%, 시바견 20%”로 훈련시킵니다. 😔 그러면 1개 모델로 앙상블에 준하는 정확도를 만들 수 있습니다. (3) 자가 증류는 더 놀랍습니다. 앙상블이 아닌, 단일 모델에 대해서 지식 증류 기법을 수행해도 정확도가 향상됩니다. 앙상블, 지식 증류 그리고 자가 증류 같은 현상은 왜 벌어지는 걸까요? 위 예시는 모델마다 동일한 데이터셋과 아키텍처를 사용하므로 Bagging이나 Random Forest의 상황과는 다릅니다. 가설을 세워봅시다. 신경망의 특정 가중치는 무작위로 주어진 초기값에 매우 가깝게 남아있을 것이고 그를 통해 결정되는 피쳐 부분집합에 크게 의존하여 결괏값을 매핑할지 모릅니다. 그래서 여러 모델을 결합하면 유효한 피쳐 개수가 증가하므로 성능이 향상하는 걸까요? 아니면 고전적 통계 이론처럼 개별 모델 분산이 평균을 통해 감소하면서 성능이 향상하는 걸까요? 아래 소개할 논문은 두 가설 모두 증거로 채택하기 어렵다고 다양한 실험을 통해 얘기합니다. 특히나 지식 증류 같은 현상은 설명이 잘 안돼요. 지난 12월 MS는 딥러닝 앙상블 기법의 이론적 근거가 되는 논문 "Three mysteries in deep learning: Ensemble, knowledge distillation, and self-distillation"을 발표했습니다. 쉽게 얘기해보죠. 컴퓨터 비전 데이터셋에서 모델은 객체를 여러 관점을 통해 분류해낼 수 있습니다. 예를 들어, 자동차 이미지를 헤드라이트, 바퀴 또는 창문의 특징을 보고 분류할 수 있어요. 신경망은 무작위 시드 값에 따라 이러한 관점 중 일부 집합만 빠르게 학습하여 클래스를 분류합니다. 즉 모델이 헤드라이트 하나만 사용해서 자동차를 분류해도 정확도 면에서 충분할 수 있어요. 물론 일부 사진은 각도 때문에 자동차 헤드라이트가 보이지 않을 수 있습니다. 여기서 앙상블이 큰 힘을 발휘합니다. 개별 신경망들이 각자 다른 관점으로 특징을 학습, 객체를 분류하기 때문에 이것들을 합치면 종합적인 판별이 가능하겠죠. 이러한 설명을 지식 증류에도 적용할 수 있습니다. 일부 자동차 이미지의 헤드라이트는 고양이 눈처럼 보일 수 있습니다. 이 경우 앙상블 모델은 자동차 이미지가 약 10%의 확률로 고양이와 비슷하다고, 헤드라이트 패턴에 주목하라고 출력 값을 통해 알려줄 수 있죠. 다시 말해 개별 모델은 지식 증류 과정을 통해 앙상블 모델이 갖는 종합적인 관점으로 판별하게끔 학습을 강제당하는 셈입니다. 자기 증류의 과정 또한 이와 비슷합니다. 제가 유비 추리로써 비약적인 설명을 했지만 논문은 사실 수리적인 증명을 담고 있습니다. 딥러닝의 이론적인 기초를 쌓으려는 노력은 점차 증가하고 있어요. 몇 년 후 우리는 기계공학처럼 딥러닝의 작동 원리를 좀 더 투명하게 이해하는 세계에 살고 있을지도 모르겠네요.

3 deep learning mysteries: Ensemble, knowledge- and self-distillation

Microsoft Research

다음 내용이 궁금하다면?

이미 회원이신가요?

2021년 2월 14일 오전 9:25

저장 17 • 조회 2,251

함께 읽은 게시물

장홍석

스페이스오디티 부대표/CPO

21시간 전

< 초동 100만 장, 그런데 팬은 어디 있죠? - 엔터 테크와 데이터로

댓글 1 • 저장 3 • 조회 448

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

하루 전

빠르게 한 방향으로 성장하기 위해선 조직 전체에 핵심 가치가 공유돼야 한다. 핵심 가치란 리더가 조직의 성공을 위해 중요하다고 생각하는 가치라고 정의할 수 있다. 기업이 성장하면서 구성원 수가 급격히 늘어나는데, 이들이 각기 다른 가치를 우선시하며 일한다면 성장이 둔화할 수 있다. 핵심 가치는 그런 사태를 막아주는 ‘필터’ 역할을 한다.

기업의 지속적인 혁신과 성장의 관건은 '핵심가치 공유'

한국경제

저장 1 • 조회 436

김문수

토스 데이터 엔지니어 | ex-뱅크샐러드

2일 전

데이터 작업용 Cursor 에디터 - Nao

Nao - 데이터를 위한 Cursor | GeekNews

GeekNews

저장 3 • 조회 1,442

레드버스백맨

리서처 앤 라이터

2일 전

《땅에 쓰는 시, 조경하는 마음》

이

저장 3 • 조회 574

김소진

제니휴먼리소스 대표(헤드헌터/ 커리어코치)

하루 전

이력서 버전 5.5까지 갈아 끼웠는데 400군데 탈락했어요!

이

저장 2 • 조회 79

Somewon Yoon

프로젝트 썸원 Content Owner

5월 12일

크래프톤이 게임 업계 원탑이 된 이유

하나에만 ‘올인’ 하나뿐인 ‘최고’로 [언더독의 반란]

n.news.naver.com

저장 6 • 조회 1,095

주간 인기 TOP 10

K리그 프로그래머 커피한잔 개발자

개발자의 장애 공유 문화

석민 커리어 코치

위로

장홍석 스페이스오디티 부대표/CPO

< 뇌를 가장 빠르게 바꾸는 3가지 방법 >

달레 Apollo GraphQL Software Engineer

Dependabot을 통한 안전한 의존성 관리

레드버스백맨 리서처 앤 라이터

⟪스토리를 만드는 사람들⟫

우디디자인랩 대표ㅣ프로덕트 디자이너

브런치에서의 6년, 그리고 100만뷰

골빈해커 Chief Maker

📰 인공지능만으로 운영된 스타트업의 실패 카네기 멜론 대학교의

골빈해커 Chief Maker

ChatGPT의 Deep Researh에 GitHub을 연결 할

동크루트 AI 엔지니어, SW 엔지니어

5월 둘째주 - OpenAI 인수부터 마소에 반기까지. 다 하는군

이양일 NaverCloud 백엔드 개발자

주니어 개발자들이 읽으면 좋은 테크 아티클 모음📚

댓글 0

함께 읽은 게시물

< 초동 100만 장, 그런데 팬은 어디 있죠? - 엔터 테크와 데이터로

데이터 작업용 Cursor 에디터 - Nao

《땅에 쓰는 시, 조경하는 마음》

이력서 버전 5.5까지 갈아 끼웠는데 400군데 탈락했어요!

크래프톤이 게임 업계 원탑이 된 이유

주간 인기 TOP 10

추천 프로필