HoJoong Kim

Senior IT guy

< 구글 번역기는 처음에 어떻게 만들어진걸까? > AI/ML관련 전문 뉴스레터는 흔하지 않습니다. 그런데, 이 위클리 NLP는 이러한 갈증을 해소해주고도 남습니다. 특히, 최대한 쉬우면서도 차근차근 따라올수 있게 설명해주고 있습니다. 아무래도 저자의 역량이 충분하고도 남기때문인거 같습니다. 저자는 Google Assistant NLP 팀의 Computational Linguist로 일하고 있는 Jiho(jiho@jiho-ml.com)님입니다. 가능하면 순차적으로 뉴스레터를 보시길 권고드리며, AI/ML관련 분야에 관심이 있으시다면 초강추!해봅니다. :-) 사실 저는 A린이(?)랍니다..T.T Anyway, Let's go!!! 영어 공부를 열심히 하면서 살던 중 어느 순간 컴퓨터가 번역을 자동으로 해줄 수 있다는 소식을 들었었습니다. 검색 시장으로 세계를 장악하던 G사가 만든 translate라는 제품. 간단한 거부터 해보았습니다. 오, 좀 하네? 그럼 지금 읽고 있었던 영어 지문도 넣어보았습니다. 흠 이건 무슨 소리지. 뭔가 단어 하나하나는 말이 되는 거 같으면서도 전체적으로 뭔 소리인지 모르는 한국어 문장이 나왔습니다. 조금은 실망하고 컴퓨터를 끄고 다시 영어 공부를 하러 돌아갔습니다. 그렇게 몇 년이 흘렀습니다. 지금 G사의 Translate 그리고 국산 N사의 파파고를 보면 그때와는 비교도 할 수 없을 정도로 꽤나 높은 품질의 번역을 보장합니다. 당연히 아직 사람 번역가를 완벽하게 대체할 수 있다고는 할 수 있다고는 없겠지만, 이렇게 빠른 속도로 발전하는 것을 보면 조만간 영어 공부를 그만 해도 되는 걸까 싶기도 합니다 (번외: 구글 번역기만 있으면 되나요). 기계번역(Machine Translation; 이하 MT) 은 어떻게 이렇게 빠른 속도로 발전할 수 있었을까요? 앞으로는 어떻게 될까요? 저는 사실 NLP를 처음 접한 게 학부 4학년 때 MT 입문 수업을 들었을 때였습니다. 그 이후 저는 이 분야에 발을 들였습니다. MT가 NLP에서 굉장히 중요한 분야인 이유는: 첫 째, NLP에서 가장 확실한 응용 분야이기 때문에, 둘째, MT에서 나온 새로운 모델, 방법론이 다른 NLP 분야에서 이용되어 더 큰 발전을 이루어냈다는 점입니다. 즉, 일종의 NLP의 선도 분야라고 할 수 있겠죠. 앞으로 몇 주간은 MT에 관해 글을 써보려고 합니다. > 번역을 하기 위해 필요한 데이터: Parallel Corpora 우리 인간이 새로운 언어를 공부할 때, 당연히 모국어를 기준으로 새로운 언어를 배웁니다. 기존에 알던 나의 모국어(한국어)의 문장, 그리고 새로운 영어의 문장을 보고 공부를 합니다. "야, 나 공부 정말 열심히 하고 있어." (source) "Hey, I am studying very hard" (target) 이런 데이터를 우리는 parallel corpora라고 부릅니다. 그리고 Source에서 Target으로 번역을 한다고 표현하죠. 머신러닝을 사용하고 싶다면 데이터가 많아야 하는 것이 인지상정, 대부분의 MT 모델들은 이러한 두 문장이 쌍을 이룬 데이터가 많으면 많을수록 성능이 좋아지겠죠? 그런데 문제는 이러한 데이터는 만들기가 정말 비싸다는 점입니다. 아마 NLP 데이터 중에 가장 비싼 데이터 중 하나가 아닐까 싶습니다. 사람에게도 하나의 문장을 다른 언어로 완전히 번역하는 것은 꽤나 고급 기술이고, 그러한 기술을 가진 사람은 한정적이죠. 그렇기 때문에 MT 연구자들의 첫 고민은 이러한 데이터를 어디서 구하는 것입니다. 현재는 인터넷 세상이 되었기 때문에 조금은 수월해졌습니다. TED 같이 강연들을 비영리로 제공하는 단체들은 강연의 번역 자막 역시 무료로 공개하기 때문에 연구자들이 많이 쓰고 있고, 유튜브 자막을 비롯해서 인터넷의 다양한 곳에서 데이터를 모을 수도 있을 것 같습니다. 얼마 전 상장한 한국의 스타트업인 Flitto처럼 crowdsourcing으로 데이터를 모으는 방법도 있겠네요. 연구자들을 위해서는 이미 오픈소스로 공개된 데이터도 꽤 있습니다. > 문장을 좀 잘라서 생각해보자: Phrase-based MT 우리가 영어 공부를 할 때 많이 익히는게 있죠. 바로 어휘(vocabulary), 사전(dictionary), 그리고 구절(phrase)! study: 공부, language: 언어, machine: 기계 according to: ~에 의하면, play with: ~와 놀다 MT의 시초는 이렇게 문장을 구절 여러 개로 나누어 각각을 번역하는 식의 접근을 하였습니다. 이러한 접근 방식을 Phrase-based Machine Translation이라고 합니다. 이는 번역을 단계별로 접근한 방법론이라고 볼 수 있습니다. 간단하게 정리를 하자면 대략적으로 이런 과정을 거칩니다. (1) 구절(phrase) 또는 단어(word) 간 대응 되는 사전(dictionary)을 만든다. (2) 사전에 수록된 어휘(vocabulary)에 따라 문장을 나눈다. (3) 나눈 부분을 번역한 후 순서를 알맞게 바꿔준다. 추가 내용은 링크 참조해주세요~~

Week 20 - 구글 번역기는 처음에 어떻게 만들어진걸까?

jiho-ml

다음 내용이 궁금하다면?

이미 회원이신가요?

2021년 9월 14일 오후 12:08

저장 2 • 조회 346

감긍부오
부산 슈넥스 회장 • 2022년 09월 07일
Asset No 2 Aerocity Hospitality District IGI Airport New Delhi, 뉴델리, 110037, 인도

함께 읽은 게시물

장홍석

스페이스오디티 부대표/CPO

6월 25일

< 이직을 고민하는 당신이 던져야 할 단 3가지 질문 >

1. 커리어를 선택하는 기준은 다양하다. 일단 내가 가진 가치관이 가장 큰 영향을 준다. 남들의 시선과 판단도 무시할 수 없다. 이직 트렌드와 경향도 살펴봐야 한다.

•

댓글 1 • 저장 7 • 조회 987

김소진

제니휴먼리소스 대표(헤드헌터/ 커리어코치)

하루 전

팀장 이상은 절대 금지, '이런것' 올리지 마세요!

팀

저장 1 • 조회 99

장홍석

스페이스오디티 부대표/CPO

하루 전

< 잡초를 없애려면 잡초 말고 오히려 잔디를 깎아야 한다 >

1. 자기 철학이 있는 사람들은 어떻게 그런 경지에 오르게 되는 것일까?

댓글 1 • 저장 3 • 조회 308

장홍석

스페이스오디티 부대표/CPO

2일 전

< 왜 나는 그때 그 선배의 말을 듣지 않았을까? >

1. 모든 학습 곡선에는 같은 패턴이 있다. 어떤 분야의 초보자가 있다고 하자. 이제 몇 가지 지식을 배운다. 그럼 마치 그 분야를 완전히 이해한 것처럼 느낀다. 누구나 0점에서 80점까지는 쉽다. 문제는 80점부터다. 전문가의 영역이다.

댓글 1 • 저장 4 • 조회 479

권태관

NAVER 소프트웨어 엔지니어

2일 전

6년간의 토이프로젝트 여정을 마무리하며 - 기술블로그 구독서비스 회고록

안

6년간의 토이프로젝트 여정을 마무리하며 - 기술블로그 구독서비스 회고록

taetaetae.github.io

•

댓글 1 • 저장 8 • 조회 1,942

장홍석

스페이스오디티 부대표/CPO

하루 전

< 가장 예쁜 사람이 아니라, 1등 할 사람에게 투표하라 >

1. 유명한 경제학자 케인스는 단기 투자 전략을 미인선발대회에 비유했다.

댓글 1 • 저장 7 • 조회 601

주간 인기 TOP 10

달레 Apollo GraphQL Software Engineer

야근의 관성

변성윤 머신러닝 엔지니어, Engineering Manager

무신사의 대용량 트래픽 경험기

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

기초 프로그래밍을 좀 더 열심히 공부할 걸..

진용진 Product manager

디자인 컴포넌트 기반 AI 프로토타이핑

황경찬(Boaz) P.E.C CEO

AI와 코딩할 때, 혹시 결과만 말하고 계신가요? 얼마 전 프로필

장홍석 스페이스오디티 부대표/CPO

< 인생을 바꾸는 ‘큰 돌멩이’의 법칙 >

이원형 라인플러스 소프트웨어 엔지니어

Gemini CLI가 무료라길래 주말에 사용해봤습니다. 기존에

psmon 웹노리라이터

DDD와 액터모델

골빈해커 Chief Maker

(웹)프론트엔드 개발이 쉬워보인다면 CSS나 WebGL 차력쇼나

레드버스백맨 리서처 앤 라이터

⟪트레바리 <리서치 하는데요> 6번째 시즌을 오픈합니다⟫

댓글 1

함께 읽은 게시물

< 이직을 고민하는 당신이 던져야 할 단 3가지 질문 >

팀장 이상은 절대 금지﻿, '이런것' 올리지 마세요!

< 잡초를 없애려면 잡초 말고 오히려 잔디를 깎아야 한다 >

< 왜 나는 그때 그 선배의 말을 듣지 않았을까? >​

6년간의 토이프로젝트 여정을 마무리하며 - 기술블로그 구독서비스 회고록

< 가장 예쁜 사람이 아니라, 1등 할 사람에게 투표하라 >

주간 인기 TOP 10

추천 프로필

팀장 이상은 절대 금지, '이런것' 올리지 마세요!

< 왜 나는 그때 그 선배의 말을 듣지 않았을까? >