10초 만에 알아보는 커팅엣지 ML - 멀티모달 데이터 퓨전

요즘 멀티모달 데이터를 다루고 있어 데이터 퓨전의 개론적인 내용부터 훑어보고있다. CLIP처럼 이미지와 자연어에 대해 대조 학습 기법을 적용한 것이 대표 사례이지만 보다 일반적인 산업의 용례는 LIDAR와 카메라 같이 상이한 샘플링 빈도와 차원을 가진 센서 값을 잘 결합해내는 것이다. 머스크 형은 그럴 필요 없으니 LIDAR 그냥 번개장터에 내놓으라고 하겠지만... 😌 ✔️ 얼리 퓨전은 피쳐 수준의 다양한 입력을 미리 결합하여 모델 입력으로 삼는 것이다. 샘플링 빈도와 차원이 꽤 다르다면 이걸 동기화하는 과정에서 정보 손실이 일어날 가능성이 높다. 또, 개별 입력이 상호 독립이어야 효과적이지만 붓다의 가르침처럼 우주 삼라만상은 대부분 연관되어있다. 🥹 ✔️ 레이트 퓨전은 여러 모델의 출력을 결합하여 최종 출력으로 내놓는 것이다. 이는 얼리 퓨전의 문제점을 상당수 해결하는 것으로 많은 연구자들이 선호하는 방법이다. ✔️ 인터미디엇 퓨전은 모델 내부에 결합 층을 두어 서서히 하나의 표현으로 합쳐나가는 것이다. 여러 센서 입력을 하나의 결합층에서 한꺼번에 합치기보다는 한 층에 한 쌍씩 (상관성이 높은 쌍부터) 진행하는 것이 일반적이다. 그러나 이렇게 휴리스틱한 모델 아키텍처 디자인은 어제 몰빵한 육만전자 주식처럼 이게 최선일까 항상 찜찜함을 준다. 😂 장기적으로 우상향하겠지. (-72%) 흥미롭게 본 논문과 구현물은 AutoML 라이브러리 AutoGluon에 속해있는 멀티모달 프리딕터 (https://auto.gluon.ai/stable/tutorials/multimodal/index.html) 그리고 그것의 이론적 토대인 논문 'Multimodal AutoML on Structured Tables with Text Fields'(https://openreview.net/attachment?id=OHAIVOOl7Vl&name=crc_pdf)이다.

DATA FUSION

Medium

DATA FUSION

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2022년 11월 16일 오후 2:14

 • 

저장 10조회 2,802

댓글 0