LLM은 한국어를 그대로가 아닌 영어로 번역해서 이해한다.

우리(한국인)들은 영어를 읽거나 말할 때 항상 한국어로 번역을 하는 과정을 거칩니다. 머릿속에서 한국어로 생각이 이뤄지기 때문이죠. 아니라구요? 당신은 굉장히 영어를 잘하는 사람일거에요. ^^


이와 비슷하게 LLM이 어떻게 Multilingualism을 가질 수 있는지 분석해본 논문을 하나 보게 되었습니다. Alibaba의 연구에 따르면, 초반 layer에서 translation을 도맡아서 하는 뉴런이 존재하고 이 뉴런이 input text를 영어로 번역하는 과정을 발견했다고 하였습니다. 굉장히 흥미롭지 않나요?


그래서 한국어로 LLM을 넣어주는 것보다 미리 번역기를 통해 영어로 번역하고 넣어주는게 성능이 좋았던 걸까요? 그러면 translation을 위한 layer도 reasoning에 활용할 수 있지 않을가 하는 생각을 해보았습니다.


논문 링크: https://arxiv.org/abs/2402.18815

How do Large Language Models Handle Multilingualism?

arXiv.org

How do Large Language Models Handle Multilingualism?

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 3월 5일 오후 12:48

 • 

저장 7조회 1,799

댓글 0

    함께 읽은 게시물

    [New⚡️BM] 미국 내 한국 스타트업, 몰로코 몰로코(Moloco)는 미국에서 한국인들이 시작한 AD-tech 스타트업입니다. 이미 시리즈 B까지 투자를 마쳤고, 미국뿐만 아니라 한국과 싱가포르 등 전 세계로 뻗어 나가는 중입니다. 몰로코는 AD-tech 내 DSP 분야에서 활약 중이고 신사업(?)으로 AD Cloud 서비스를 하고 있습니다. DSP(Demand-side platform)라 하면, 광고주 데이터를 기반으로 몰로코의 머신러닝 기술과 몰로코의 빅데이터를 활용하여 실시간 자동 비딩(Real-Time Bidding)으로 광고구좌를 구매합니다. 광고주가 원하는 목적(새로운 유저 또는 매출)에 맞춰 최적화하여 최상의 ROAS를 제공하는 것 입니다. AD Cloud는 어느 정도 이상의 유저와 데이터를 확보한 서비스들이 구글이나 페이스북처럼 광고를 최적화하여 판매할 수 있도록 도와주는 서비스입니다. 제가 하이퍼커넥트로 이직 후 한국 아자르를 맡게 되면서 가장 눈여겨본 업체가 바로 몰로코입니다. 생각보다 훨씬 뛰어난 퍼포먼스 성과를 보여주었기 때문입니다. 당연히 한국 업체가 아니라고 생각했습니다. 왜냐... 더 보기

    "콕 집어주는 광고에 놀랐나요? 답은 이 손 안에 있소이다"

    Chosun

    "콕 집어주는 광고에 놀랐나요? 답은 이 손 안에 있소이다"