[언어 무관한 BERT 문장 임베딩 🔡] 다국어 임베딩 모델이란 각국 언어의 문장들이 의미가 유사하다면 벡터 공간에서 유사한 벡터 값을 갖게끔 만드는 모델입니다. 네, 우리 조상님들이 싸이 미니 홈피에 적어놓기도 했던 '있잖아, 나는 널 사랑해. I love you. 愛してる. Je t'aime... ' 이 사랑한다는 문장들이 언어 무관하게, 유사한 임베딩 벡터 값을 갖도록 하는 게 목적이죠. 😔 물론 페이스북의 LASER나 구글의 m~USE 같은 기존 방법론들이 있습니다. 다만 성능을 떨어뜨리지 않으면서 지원 언어를 확장해나가기가 까다로웠습니다. 구글은 작년 두 개의 트랜스포머 인코더가 가중치를 공유하면서 번역 순위를 학습해 나가는 아키텍처를 고안했고 이를 통해 다국어 임베딩을 만들었습니다. 이것 역시 특정 병렬 말뭉치에서는 성능이 좋았지만 여러 언어로 확장하기가 어려웠습니다. 이번 7월에 발표한 논문 'Language-agnostic BERT Sentence Embedding'은 위에서 말한 트랜스포머들을 BERT로 사전 훈련해놓는 형태로 모델 개선을 꾀했습니다. NLP 문제에서 BERT는 이제 백종원 레시피 같기도 하군요. 😔 그랬더니 지원 언어를 늘려도 정확도가 크게 떨어지지 않고... 각국 언어의 범용적인 구조를 학습하여 학습 데이터셋에도 없는 언어의 문장을 맞추기도 하고... 행복해지고... 건강해지고... 그랬다고 합니다. 본 모델 LaBSE에 대한 자세한 내용은 블로그, 논문, tfhub를 확인하세요.

Language-Agnostic BERT Sentence Embedding

Googleblog

Language-Agnostic BERT Sentence Embedding

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2020년 9월 10일 오후 3:09

댓글 0