<OpenAI의 새로운 임베딩모델 발표의 엄청난 의미>

이번 주에 OpenAI가 조용하지만 시장에 어마어마한 영향력을 만들 중요한 발표를 했습니다. 더 작고 효율성 좋은 새로운 임베딩 모델을 2개 발표했는데요. 이것을 이해하려면 먼저...


1. 임베딩이 뭔지를 알아야하는데요. 일단 임베딩이란 말은 OpenAI가 만든 말은 아니구요. 머신러닝 분야에서는 이미 널리 알려진 원리입니다.


2. 임베딩은 단어 또는 문장과 같은 복잡한 요소를 숫자로 바꾸어 표현한 것을 말합니다. 왜 텍스트를 이렇게 복잡한 소수점 숫자로 표현을 할까요?

이렇게 하면 숫자값으로 텍스트의 의미적 의미를 파악하고, 이를 보다 쉽게 처리하고 분석할 수 있는 형식으로 사용할 수 있습니다. 즉 숫자값이 비슷할 수록 비슷한 뜻을 가진 단어라고 생각하면 됩니다. (단어간 촌수를 만든다고 생각해도 됩니다. 그렇지만 이게 소숫점을 가진 숫자니까 무지하게 세분화 되어 있다고 생각하면 됩니다.)


3. 간단한 예를 들자면 " 멋지다", "훌륭하다", "예쁘다"는 비슷한 숫자값을 가질테고, "못생겼다", "추하다"와의 값과는 차이가 좀 있는 경우로 분류를 하는 것입니다.


4. 이렇게 단어와 문장을 숫자로 바꾸어선 그 다음에 어떻게 하냐고요? 그것을 여러 축을 가진 벡터 공간 (데이터베이스)에 배열하면 의미적 유사성을 효과적으로 측정하고 평가할 수 있습니다.


5. 그럼 결국 이것을 갖고 무엇을 할 수 있을까요? 어마무시한 일들을 할 수 있습니다. 일단 제일 쉽게 사용할 수 있는 경우는 검색(텍스트, 코드)이죠. 검색 정확도와 효율성을 향상시킵니다. 연관 검색어나 유사 검색을 매우 쉽게 처리할 수 있죠.


6. 쇼핑몰의 댓글의 예를 들어볼게요.

"이 제품 정말 강추합니다" 와 "정말 기대 이상이네요" 라는 두개의 다른 댓글이 있다고 가정해 봅시다.

두개 모두 긍정적인 피드백이고 비슷한 의미이지만, 일반 검색엔진으로서는 다르게 처리될 수 밖에 없는 공통된 키워드 하나 없는 문장입니다. 하지만, 이런 임베딩을 사용하면 이 두 문장은 유사성이 매우 높다고 나오니 그 결과에 따라 추천이든, 검색이든, 번역이든 뭐든지 더 잘 할 수 있는 것입니다.


7. 그것 뿐이겠어요. 잠깐 생각해 볼수 있는 분야가 이렇게 많네요.

- 텍스트 분류: 감정 분석이나 주제 식별 작업을 위해 사용

- 정보 검색: 검색 엔진에서 찾을 수 있는 것과 유사하게 특정 검색어와 관련된 정보를 검색에 사용

- 의미적 유사성 감지: 의미적 유사성을 식별하고 정량화에 사용, 즉 뉘앙스를 파악하는게 가능해 집니다.

- 추천 시스템: 사용자 선호도를 이해하여 추천의 품질을 향상

- 텍스트 생성: 보다 일관성 있고 문맥과 연관성이 높은 텍스트를 생성하는 데 사용

- 번역: 여러 언어에 걸쳐 의미론적 의미를 포착하여 번역 프로세스의 품질을 향상


8. 이렇게 임베딩과 벡터데이터베이스를 이해하면 OpenAI가 무엇을 왜 잘하는지를 쉽게 이해 할 수 있습니다. (물론 이것만 있는것 아닙니다.)


9. 이번 발표는 이런 일을 훨씬 잘 할 수 있는 모델을 발표하고 가격정책을 발표한겁니다. 어디에 가장 영향력을 가질까요? 검색이 사용되는 모든 곳에는 모두 다 쓰여질 수 있죠. 유사검색, 연관검색, 교차검색, 의미검색 등등 모두 입니다.

쇼핑몰에서 "바나나 우유"를 검색할 때 연관 검색어가 과일일까 우유일까 아니면 또 다른 유제품을 내 줄까를 엄청 고민하며 그 관련성을 만들면서 날밤새며 개발했던 일들이 무지 무지 간단해졌단 뜻 일수 있습니다. 댓글을 사용하는 모든 서비스에서도 이용하면 엄청난 부가가치를 만들수 있습니다. 기업에서 사용하는 '기업 고유 키워드'의 의미를 제대로 세팅하여 번역에 이용할 수도 있죠.


10. 이젠 누구나 고객의 불편함에 근거한 시장니즈를 발견하고 해결할 수 있는 아이디어가 있다면, 이러한 핵무기와 같은 비대칭 전력을 제공하는 기술을 사용하여 큰 기업과 경쟁을 할 수 있는 상황이 된 듯 합니다.


11. OpenAI의 서비스 상용화가 매우 빠르면서도 세련된 모습으로 진행된다고 느낍니다. 물론 뒷배에 MSFT라는 최고의 코치가 있어서겠지만요. 이젠 이런 서비스를 사용할까 말까의 문제가 아니라, 오늘부터 쓸까 내일부터 쓸까의 문제가 되어가는 듯 합니다.

OpenAI Platform

openai.com

OpenAI Platform

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 1월 27일 오전 1:19

댓글 0

    함께 읽은 게시물

    < 감각의 나 vs 상상의 나, 누구를 믿어야 할까? >

    1. 자신을 두 존재로 생각하십시오.

    ... 더 보기

    개발자는 개발만 잘하면 될까

    최근에 친구가 추천해준 데일 카네기의 인간관계론을 읽던 중 고액 연봉을 받는 엔지니어들의 특징에 대한 흥미로운 내용이 있었다.

    ... 더 보기

     • 

    저장 14 • 조회 2,621



    ‘똑부(똑똑하고 부지런하기)보다 똑게(똑똑하지만 게으른) 리더가 되라.’ 리더십 코칭에서 빠지지 않는 훈수다. 현장 리더들의 말을 들어보면 실행이 쉽지 않다.

    ... 더 보기

    [김성회의 고사성어 리더십] `똑게 리더십` 3가지 법칙 - 매일경제

    매일경제

    [김성회의 고사성어 리더십] `똑게 리더십` 3가지 법칙 - 매일경제

     • 

    저장 2 • 조회 653


    🍆컬리의 상품위원회 현장을 공개합니다

    ... 더 보기

    - YouTube

    youtu.be

     - YouTube

    토요일에 회사에서

    

    ... 더 보기