< 구글 번역기는 처음에 어떻게 만들어진걸까? > AI/ML관련 전문 뉴스레터는 흔하지 않습니다. 그런데, 이 위클리 NLP는 이러한 갈증을 해소해주고도 남습니다. 특히, 최대한 쉬우면서도 차근차근 따라올수 있게 설명해주고 있습니다. 아무래도 저자의 역량이 충분하고도 남기때문인거 같습니다. 저자는 Google Assistant NLP 팀의 Computational Linguist로 일하고 있는 Jiho(jiho@jiho-ml.com)님입니다. 가능하면 순차적으로 뉴스레터를 보시길 권고드리며, AI/ML관련 분야에 관심이 있으시다면 초강추!해봅니다. :-) 사실 저는 A린이(?)랍니다..T.T Anyway, Let's go!!! 영어 공부를 열심히 하면서 살던 중 어느 순간 컴퓨터가 번역을 자동으로 해줄 수 있다는 소식을 들었었습니다. 검색 시장으로 세계를 장악하던 G사가 만든 translate라는 제품. 간단한 거부터 해보았습니다. 오, 좀 하네? 그럼 지금 읽고 있었던 영어 지문도 넣어보았습니다. 흠 이건 무슨 소리지. 뭔가 단어 하나하나는 말이 되는 거 같으면서도 전체적으로 뭔 소리인지 모르는 한국어 문장이 나왔습니다. 조금은 실망하고 컴퓨터를 끄고 다시 영어 공부를 하러 돌아갔습니다. 그렇게 몇 년이 흘렀습니다. 지금 G사의 Translate 그리고 국산 N사의 파파고를 보면 그때와는 비교도 할 수 없을 정도로 꽤나 높은 품질의 번역을 보장합니다. 당연히 아직 사람 번역가를 완벽하게 대체할 수 있다고는 할 수 있다고는 없겠지만, 이렇게 빠른 속도로 발전하는 것을 보면 조만간 영어 공부를 그만 해도 되는 걸까 싶기도 합니다 (번외: 구글 번역기만 있으면 되나요). 기계번역(Machine Translation; 이하 MT) 은 어떻게 이렇게 빠른 속도로 발전할 수 있었을까요? 앞으로는 어떻게 될까요? 저는 사실 NLP를 처음 접한 게 학부 4학년 때 MT 입문 수업을 들었을 때였습니다. 그 이후 저는 이 분야에 발을 들였습니다. MT가 NLP에서 굉장히 중요한 분야인 이유는: 첫 째, NLP에서 가장 확실한 응용 분야이기 때문에, 둘째, MT에서 나온 새로운 모델, 방법론이 다른 NLP 분야에서 이용되어 더 큰 발전을 이루어냈다는 점입니다. 즉, 일종의 NLP의 선도 분야라고 할 수 있겠죠. 앞으로 몇 주간은 MT에 관해 글을 써보려고 합니다. > 번역을 하기 위해 필요한 데이터: Parallel Corpora 우리 인간이 새로운 언어를 공부할 때, 당연히 모국어를 기준으로 새로운 언어를 배웁니다. 기존에 알던 나의 모국어(한국어)의 문장, 그리고 새로운 영어의 문장을 보고 공부를 합니다. "야, 나 공부 정말 열심히 하고 있어." (source) "Hey, I am studying very hard" (target) 이런 데이터를 우리는 parallel corpora라고 부릅니다. 그리고 Source에서 Target으로 번역을 한다고 표현하죠. 머신러닝을 사용하고 싶다면 데이터가 많아야 하는 것이 인지상정, 대부분의 MT 모델들은 이러한 두 문장이 쌍을 이룬 데이터가 많으면 많을수록 성능이 좋아지겠죠? 그런데 문제는 이러한 데이터는 만들기가 정말 비싸다는 점입니다. 아마 NLP 데이터 중에 가장 비싼 데이터 중 하나가 아닐까 싶습니다. 사람에게도 하나의 문장을 다른 언어로 완전히 번역하는 것은 꽤나 고급 기술이고, 그러한 기술을 가진 사람은 한정적이죠. 그렇기 때문에 MT 연구자들의 첫 고민은 이러한 데이터를 어디서 구하는 것입니다. 현재는 인터넷 세상이 되었기 때문에 조금은 수월해졌습니다. TED 같이 강연들을 비영리로 제공하는 단체들은 강연의 번역 자막 역시 무료로 공개하기 때문에 연구자들이 많이 쓰고 있고, 유튜브 자막을 비롯해서 인터넷의 다양한 곳에서 데이터를 모을 수도 있을 것 같습니다. 얼마 전 상장한 한국의 스타트업인 Flitto처럼 crowdsourcing으로 데이터를 모으는 방법도 있겠네요. 연구자들을 위해서는 이미 오픈소스로 공개된 데이터도 꽤 있습니다. > 문장을 좀 잘라서 생각해보자: Phrase-based MT 우리가 영어 공부를 할 때 많이 익히는게 있죠. 바로 어휘(vocabulary), 사전(dictionary), 그리고 구절(phrase)! study: 공부, language: 언어, machine: 기계 according to: ~에 의하면, play with: ~와 놀다 MT의 시초는 이렇게 문장을 구절 여러 개로 나누어 각각을 번역하는 식의 접근을 하였습니다. 이러한 접근 방식을 Phrase-based Machine Translation이라고 합니다. 이는 번역을 단계별로 접근한 방법론이라고 볼 수 있습니다. 간단하게 정리를 하자면 대략적으로 이런 과정을 거칩니다. (1) 구절(phrase) 또는 단어(word) 간 대응 되는 사전(dictionary)을 만든다. (2) 사전에 수록된 어휘(vocabulary)에 따라 문장을 나눈다. (3) 나눈 부분을 번역한 후 순서를 알맞게 바꿔준다. 추가 내용은 링크 참조해주세요~~

Week 20 - 구글 번역기는 처음에 어떻게 만들어진걸까?

jiho-ml

Week 20 - 구글 번역기는 처음에 어떻게 만들어진걸까?

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2021년 9월 14일 오후 12:08

댓글 1

함께 읽은 게시물

< 이직을 고민하는 당신이 던져야 할 단 3가지 질문 >

1. 커리어를 선택하는 기준은 다양하다. 일단 내가 가진 가치관이 가장 큰 영향을 준다. 남들의 시선과 판단도 무시할 수 없다. 이직 트렌드와 경향도 살펴봐야 한다.

... 더 보기

 • 

댓글 1 • 저장 7 • 조회 987


팀장 이상은 절대 금지, '이런것' 올리지 마세요!

... 더 보기

< 잡초를 없애려면 잡초 말고 오히려 잔디를 깎아야 한다 >

1. 자기 철학이 있는 사람들은 어떻게 그런 경지에 오르게 되는 것일까?

... 더 보기

< 왜 나는 그때 그 선배의 말을 듣지 않았을까? >​

1. 모든 학습 곡선에는 같은 패턴이 있다. 어떤 분야의 초보자가 있다고 하자. 이제 몇 가지 지식을 배운다. 그럼 마치 그 분야를 완전히 이해한 것처럼 느낀다. 누구나 0점에서 80점까지는 쉽다. 문제는 80점부터다. 전문가의 영역이다.

... 더 보기

6년간의 토이프로젝트 여정을 마무리하며 - 기술블로그 구독서비스 회고록

... 더 보기

6년간의 토이프로젝트 여정을 마무리하며 - 기술블로그 구독서비스 회고록

taetaetae.github.io

6년간의 토이프로젝트 여정을 마무리하며 - 기술블로그 구독서비스 회고록

 • 

댓글 1 • 저장 8 • 조회 1,942


< 가장 예쁜 사람이 아니라, 1등 할 사람에게 투표하라 >

1. 유명한 경제학자 케인스는 단기 투자 전략을 미인선발대회에 비유했다.

... 더 보기