Text Embedding Models

LLM 뿐만아니라 요즘은 Text Embedding 쪽도 기술 발전이 빠르고, 경쟁이 치열한데요.

Embedding 모델도 여러가지 모델들이 존재합니다.

LLM leaderboard와 같이 [MTEB leaderboard](https://huggingface.co/spaces/mteb/leaderboard)를 통해서 오픈소스 embedding 모델들의 현재 점수들을 확인할 수 있습니다.


하지만 많은 회사들이 Long-context 지원(8k input), 사용 편리성, 속도와 품질 등을 고려해서 open ai에서 만든 text-embedding-ada-002 모델을 많이 사용하고 있는데요.

(text-embedding-ada-002 내용 참고: https://openai.com/blog/new-and-improved-embedding-model)


최근 Jina AI에서도 8K context input을 지원하는 모델을 오픈소스로 공개했습니다. 자세한 설명은 아래의 링크를 참고해주세요.

참고 - https://jina.ai/news/jina-ai-launches-worlds-first-open-source-8k-text-embedding-rivaling-openai/?utm_source=pytorchkr


또한 Cohere에서는 MTEB leaderboard 등의 SOTA 모델로 Embed v3을 공개했으며, multilingual도 지원하고 있습니다. 실제로 국내 스타트업들에서도 cohere 의 multilingual 모델을 많이 사용하고 있는 것 같습니다. 자세한 설명은 아래의 링크를 참고해주세요.

참고 - https://txt.cohere.com/introducing-embed-v3/?utm_source=pytorchkr

Introducing Embed v3

Context by Cohere

Introducing Embed v3

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 11월 18일 오전 6:21

 • 

저장 8조회 1,355

댓글 0

    함께 읽은 게시물

    My Principles

    

    ... 더 보기

    < 내가 뭘 원하는지 도무지 모를 때 해야 할 단 한 가지 >

    1. 하고 싶다고 생각한 것은 사실 당신의 마음속에서부터 나온 게 아니라, 상식이나 가족, 또는 친구의 기대에 영향받은 것이 많다.

    ... 더 보기

    몇가지 주제에 대해서 특허 출원을 해 두려고 정리중인데, Claude Code랑 ChatGPT Codex에게 소스에서 알아서 특허 될만한 것 좀 찾아서 정리해봐라고 해 보았다.


    결과는 둘 다 상당히 어설프긴 했지만, 둘 다 내가 생각하고 있던 것도 일부 찾아내서 신기했다.


    ... 더 보기

    MCP 모르면 대체 얼마나 손해 보는 걸까?🤔

    ... 더 보기

    MCP 모르면 대체 얼마나 손해 보는 걸까? | 요즘IT

    요즘IT

    MCP 모르면 대체 얼마나 손해 보는 걸까? | 요즘IT

     • 

    댓글 1 • 저장 28 • 조회 3,128