박이삭

라인게임즈 / 데이터분석팀

<BERT보다 가벼운 ELECTRA> 자연어(NLP) 분야에서 뛰어난 성과를 보여준 모델은 어떤 게 있을까요? BERT, GPT-2, XLNET 등 다양한 모델들을 들어는 봤는데, 정작 주변에서 사용하는 사람들을 쉽게 보지 못했을까요? 자연어 모델은 대부분 뛰어난 성능 때문에 학습시키는데 엄청난 비용이 들어가기 때문입니다. BERT, GPT-2, XLNET 순서대로 약 850만 원, 5,100만 원, 7,300만 원이 들어간다고 합니다. (*DEAVIEW 2019 발표 중 Clova AI의 발표 자료 참고) '내 돈 내산'이 유행이라지만 이렇게 큰 비용을 개인이 지불하기엔 조금 힘든데요, 오늘 소개 드릴 모델은 이런 고민을 싹 없애주는 Google의 ELECTRA라는 모델입니다. 내용이 길기 때문에 아래 3줄 요약부터 보셔도 됩니다!!! <INTRO> 오늘은 BERT보다 가볍지만, BERT만큼 뛰어난 성능을 보여주는 모델을 만드는 게 목적입니다. 그렇기에 ELECTRA의 주 비교 대상은 BERT이며, 학습 방법은 BERT의 방법과 최대한 동일한 조건하에 실험을 진행했습니다. "ELECTRA의 핵심은 가볍다"입니다. 적어도 클라우드가 아닌 개인용 GPU로 학습이 가능할 정도의 사이즈여야 가볍다고 말할 수 있을 텐데요, 이를 위해 BERT의 큰 문제점이었던 학습 효율을 개선했습니다. BERT는 train 데이터를 15%만 사용합니다. 이 효율을 100%까지 올릴 수 있다면 적은 학습량으로 빠르게 모델을 완성할 수 있고, ELECTRA는 해냈습니다. <HOW> 1. 학습 효율 개선 - 주어진 문장중 [MASK]에 들어갈 단어를 문맥에 맞게 학습 ( 배가, 고픈, 철수는, 밥을, [MASK] ) - 학습이 마친 모델은 [MASK]에 들어갈 단어를 생성 (Generator 모델) 기존 언어 모델들이 학습하는 방법은 한 문장 속 [MASK]가 15% 밖에 없어서 효율이 낮습니다. 이를 개선하기 위해 Replace Token Detection이라는 방법을 사용합니다. 생성 모델의 모든 Output Token을 [original] 혹은 [replaced]라고 분류하는 Discriminator(ELECTRA)를 추가로 학습한다면, ELECTRA는 모든 TOKEN에 대해서 학습하는 효과가 있습니다. --> 효율 개선 2. Generator & Discriminator BERT보다 가벼워야 하는데 모델을 두 개나 만들면 무슨 소용일까요? 그렇기 때문에 Weight Sharing을 고려하게 되었고 가장 효과가 좋았던 결과는 Transformer의 Embedding 층을 공유하는 것이었다고 합니다. 마지막으로 Generator를 Discriminator보다 적은 모델 사이즈를 갖게 했습니다. 3줄 요약 1. BERT는 뛰어난 성능을 보이지만 학습 효율이 낮다 2. ELECTRA는 이를 개선하여 BERT와 비슷한 성능을 보이지만 훨씬 저렴 3. 덕분에 개인 PC에서 학습할 만큼 가벼워졌다 새로운 방법론을 제시한 논문은 아니지만, 학습 효율을 개선한 덕분에 실용적으로 사용할 수 있게 되었습니다. 개인적으로는 적당한 fine-tunning을 한 뒤, 감성분석을 ELECTRA를 이용해 진행해보려 합니다. 영어가 아닌 한국어 데이터 세트를 학습한 ELECTRA를 소개하며 글을 마칩니다.

monologg/KoELECTRA

GitHub

다음 내용이 궁금하다면?

이미 회원이신가요?

2021년 1월 8일 오후 3:05

저장 7 • 조회 3,560

함께 읽은 게시물

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

3일 전

“뜻밖에 아주 야비하고 어이없는 일을 당하더라도 그것 때문에 괴로워하거나 짜증내지 마라. 그냥 지식이 하나 늘었다고 생각하라. 인간의 성격을 공부해가던 중에 고려해야 할 요소가 새로 하나 나타난 것뿐이다. 우연히 아주 특이한 광물 표본을 손에 넣은 광물학자와 같은 태도를 취하라.” 현대판 마키아벨리라 불리는 로버트 그린의 책 <인간 본성의 법칙>은 쇼펜하우어의 말을 인용하는 것으로 시작한다.

[허연의 책과 지성] 누가 뒤통수를 치거든 경험이 하나 늘었다고 생각하라 - 매일경제

매일경제

저장 5 • 조회 476

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

하루 전

리더는 업무를 위임하는 능력을 반드시 갖춰야 한다. 하지만 많은 리더가 위임을 제대로 하지 못하며 효율성을 떨어뜨리는 실수를 반복하고 있다.

IT 리더가 업무를 위임할 때 피해야 할 실수 7가지

CIO

저장 1 • 조회 247

한정수

Software Engineer

3일 전

작년에 읽은 34권의 책 중 가장 좋았던 책

2024년에 밑줄 친 문장들

1nteger 🏄🏻‍♂️

•

저장 12 • 조회 1,629

장홍석

스페이스오디티 부대표/CPO

3일 전

< 가짜 전문가와 진짜 멘토를 구별하는 법 >

1. 질문에 대한 답을 제공하는 일을 돈벌이로 삼는 사람은 상대가 누구라도 질문이 같으면 같은 대답을 합니다.

댓글 1 • 저장 6 • 조회 659

장홍석

스페이스오디티 부대표/CPO

2일 전

< 인류는 원래 '덕질'하도록 진화했다 >

1. 이전에는 직접적인 관계만을 ’진짜‘ 관계로 여겼다면 요즘은 다양한 형태의 간접적인 관계도 자연스럽게 받아들이는 추세이다.

•

댓글 1 • 저장 1 • 조회 384

장홍석

스페이스오디티 부대표/CPO

하루 전

< 이직을 고민하는 당신이 던져야 할 단 3가지 질문 >

1. 커리어를 선택하는 기준은 다양하다. 일단 내가 가진 가치관이 가장 큰 영향을 준다. 남들의 시선과 판단도 무시할 수 없다. 이직 트렌드와 경향도 살펴봐야 한다.

•

댓글 1 • 저장 4 • 조회 543

주간 인기 TOP 10

김의중 프론트엔드 개발자

이력서는 붙는데 면접에서 계속 떨어진다면?

동크루트 AI 엔지니어, SW 엔지니어

6월 초, 새로운 바이브 코딩과 SW 개발의 전환의 시대

골빈해커 Chief Maker

🪄 플레이모어와 함께할 동료를 찾습니다

장홍석 스페이스오디티 부대표/CPO

< PM/PO 커리어 3단계: 당신은 How, What, Why

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

“직원들에게 월급 외에 출근할 이유를 줘야 합니다. 팀장이 좋다던

달레 Apollo GraphQL Software Engineer

Kotlin의 Scope 함수 정리

석민 커리어 코치

결과보다 과정을

기묘한 트렌드라이트 발행인

🔍네이버가 쿠팡 고객을 데려왔다고? 팩트 체크해 봤습니다

Somewon Yoon 프로젝트 썸원 Content Owner

젠슨 황은 어떻게 커리어를 쌓았나

이재호 책 <일 잘하는 팀장> 저자. 네오위즈 AI 개발자

고난이 사람을 키운다

댓글 0

함께 읽은 게시물

작년에 읽은 34권의 책 중 가장 좋았던 책

< 가짜 전문가와 진짜 멘토를 구별하는 법 >

< 인류는 원래 '덕질'하도록 진화했다 >

< 이직을 고민하는 당신이 던져야 할 단 3가지 질문 >

주간 인기 TOP 10

추천 프로필