Jonas Kim

데이터 과학자, ML 엔지니어

[효율적인 프로젝션 기반 모델 아키텍처를 이용해 NLP 개선하기 📲] 아시다시피 우주는 방사선이나 태양풍 같은 것이 판치는 무시무시한 공간입니다. 그런 곳에서 정밀한 기계를 동작하게 만들려면 상상 이상의 노력을 기해야 하겠죠. 프로세서만 해도 고성능 대신 내구성 높은 걸 선택할 수밖에 없습니다. 이런 이유로 NASA는 보이저 호를 만들 때 8비트 컴퓨터를 사용했답니다. 그러면서 각종 궤도 계산을 최단 시간 내에 소화해내야 하는데... 이런 괴물 같은 난이도의 최적화 작업을 완수했던 20세기 무명 엔지니어들에게 박수를 보냅니다. 응답 시간 최소화, 개인 정보 보호 등의 이유로 디바이스에 임베디드 딥러닝 모델을 고려해야 하는 경우가 있습니다. 하드웨어의 제약 때문에 파라미터 개수가 억 단위를 넘어가는 굇수(...) 모델은 선택할 수 없겠죠. 작년 Google은 PRADO라는, NLP 용도의 소형 뉴럴 아키텍처를 발표했습니다. 겨우 20만 개의 파라미터로 수준급 성능을 이끌어냈는데요. (가진 건 집 한 채지만 저는 부자입니다... 같은 느낌이랄까. 😔) 어떻게 이런 일이 가능한 걸까요? 사실 몇몇 NLP 작업, 즉 언어 모델이나 기계 번역을 제외하고 대부분의 경우 모든 단어들을 명확히 식별할 필요가 없습니다. 예컨대 감성 분류 문제라면 '행복'이라는 레이블을 맞히기 위해 모든 단어를 고유 식별해야 할 필요가 없죠. '따뜻, 안정, 소고기, 트와이스' 등 극히 일부 단어만 알아도 높은 정확도를 달성할 수 있을 겁니다. 모델이 관심 있는 단어 집합에만 집중하게 하면서 모델 용량을 크게 절약하는 것. 이게 비결입니다. 이를 위해 PRADO는 토큰 입력을 일반적인 임베딩 층이 아닌, 프로젝션 층을 통해 처리합니다. (학습 파라미터를 갖지 않는) 일종의 해시 함수를 통해 토큰을 압축, 변형하여 제한된 표현을 갖게 만듭니다. 원래 이 위에 CNN과 어텐션을 쌓는 구조였지만 이번 9월에 발표한 개선 버전(a.k.a. pQRNN)은 이 위에 병목 층과 QRNN을 쌓네요. QRNN은 컨볼루션 층과 순차성을 갖는 풀링 층을 갖춘 아키텍처로, CNN과 RNN을 혼합한 모델로 볼 수 있습니다. RNN보다 속도 면에서 우수하죠. 이번 개선 버전으로 분류 문제(civil_comments 데이터셋)에서 BERT에 준하는 성능을 달성했다고 합니다. 물론 모델 크기는 비교할 수 없이 작죠. GPT-3 같은 초대형 모델 반대편에서 디바이스 용도의 경량화 모델 연구 또한 활발히 이뤄지고 있습니다. 저는 이런 걸 보면 43년 전 보이저 호를 목성으로, 토성으로 보내기 위해 로켓 추진제부터 로우 레벨 프로그래밍까지 다방면으로 노력했던 과학자와 엔지니어들이 왠지 떠오르더라고요. (이것이 이과 갬성... 😔) 각 분야에서 일하시는 분들 모두 응원하고, 존경합니다.

Advancing NLP with Efficient Projection-Based Model Architectures

Googleblog

다음 내용이 궁금하다면?

이미 회원이신가요?

2020년 9월 28일 오전 10:56

저장 17 • 조회 2,472

함께 읽은 게시물

김소진

제니휴먼리소스 대표(헤드헌터/ 커리어코치)

하루 전

대기업 상무 연봉 진짜 얼마인지 알려드립니다

대

저장 1 • 조회 55

SNEW 스타트업 뉴스

start-up and VC

5월 4일

회사 경영진이 해결해야 할 '진짜 문제'를 정확히 파악하거나 전달하지 못해, 기술진·실무진이 잘못된 지표를 최적화하거나 가치가 낮은 영역에 집중하는 경우가 많았습니다.

AI 앞세운 프로젝트, 85%가 망하더라 [AI오답노트]

cm.asiae.co.kr

저장 5 • 조회 632

장홍석

스페이스오디티 부대표/CPO

5월 7일

< 성공하는 사람은 '왜', 실패하는 사람은 '어떻게'를 묻는다 >

1. 사람들이 자연스럽게 갖기 쉬운 프레임은 대개 하위 수준이다.

댓글 1 • 저장 11 • 조회 1,858

SNEW 스타트업 뉴스

start-up and VC

2일 전

마이크로소프트(MS)가 대규모 해고를 예고한 가운데 해고 대상의 절반가량이 소프트웨어 엔지니어링 종사자인 것으로 나타났다. 최근 기업들이 인공지능(AI)을 적극적으로 도입하면서 AI발 인력 조정이 본격화한 것이다. 업계에서는 향후 단순한 코딩 직무는 AI가 대체 가능한 만큼, 개발자의 역량이 더욱 중요해질 것으로 보고 있다.

해고되는 MS 직원 40%는 ‘소프트웨어 개발자’… AI가 촉발한 기술직 해고

조선비즈

조회 372

기묘한

트렌드라이트 발행인

2일 전

👠블로그마켓에서 일본 시부야까지, 마뗑킴이 브랜드가 되기까지

브

마뗑킴은 지속 가능한 브랜드가 되려 합니다

www.openads.co.kr

저장 2 • 조회 259

송요창

배민 프론트엔드 프로그래머

2일 전

ChatGPT 버전명 설명

ChatGPT 사용할 때 어떤 모델을 선택해야할지 망설여집니다. 모델명만 봐서는 어떤게 좋은지 모르겠더라고요.

저장 1 • 조회 1,451

주간 인기 TOP 10

Arawn Park Senior Engineer & Engineering Lead

무너지고 있는 프론트엔드, 백엔드 직군의 경계에 대한 고찰

달레 Apollo GraphQL Software Engineer

프롬프트 엔지니어에 대한 빗나간 예측

김수빈 딜리셔스 프론트엔드 개발자

ViewTransition API + react-router-do

K리그 프로그래머 커피한잔 개발자

서비스 텐션

한정수 Software Engineer

롤 챌린저 출신 개발자 → AI 광고 SaaS로 연매출 1400억

장홍석 스페이스오디티 부대표/CPO

< 성공하는 사람은 '왜', 실패하는 사람은 '어떻게'를 묻는다

psmon 웹노리라이터

DDD with AI

석민 커리어 코치

부업 (준비)

동크루트 AI 엔지니어, SW 엔지니어

5월 첫째주 테크 소식 : NotebookLM 꼭 써보세요. 정말

레드버스백맨 리서처 앤 라이터

⟪경험을 설계하는 사람의 세상에 대한 일말의 책임감에 대하여⟫

댓글 0

함께 읽은 게시물

대기업 상무 연봉 진짜 얼마인지 알려드립니다

< 성공하는 사람은 '왜', 실패하는 사람은 '어떻게'를 묻는다 >

👠블로그마켓에서 일본 시부야까지, 마뗑킴이 브랜드가 되기까지

ChatGPT 버전명 설명

주간 인기 TOP 10

추천 프로필