Introducing Embed v3
Context by Cohere
LLM 뿐만아니라 요즘은 Text Embedding 쪽도 기술 발전이 빠르고, 경쟁이 치열한데요.
Embedding 모델도 여러가지 모델들이 존재합니다.
LLM leaderboard와 같이 [MTEB leaderboard](https://huggingface.co/spaces/mteb/leaderboard)를 통해서 오픈소스 embedding 모델들의 현재 점수들을 확인할 수 있습니다.
하지만 많은 회사들이 Long-context 지원(8k input), 사용 편리성, 속도와 품질 등을 고려해서 open ai에서 만든 text-embedding-ada-002 모델을 많이 사용하고 있는데요.
(text-embedding-ada-002 내용 참고: https://openai.com/blog/new-and-improved-embedding-model)
최근 Jina AI에서도 8K context input을 지원하는 모델을 오픈소스로 공개했습니다. 자세한 설명은 아래의 링크를 참고해주세요.
참고 - https://jina.ai/news/jina-ai-launches-worlds-first-open-source-8k-text-embedding-rivaling-openai/?utm_source=pytorchkr
또한 Cohere에서는 MTEB leaderboard 등의 SOTA 모델로 Embed v3을 공개했으며, multilingual도 지원하고 있습니다. 실제로 국내 스타트업들에서도 cohere 의 multilingual 모델을 많이 사용하고 있는 것 같습니다. 자세한 설명은 아래의 링크를 참고해주세요.
참고 - https://txt.cohere.com/introducing-embed-v3/?utm_source=pytorchkr
다음 내용이 궁금하다면?
이미 회원이신가요?
2023년 11월 18일 오전 6:21
1. 하고 싶다고 생각한 것은 사실 당신의 마음속에서부터 나온 게 아니라, 상식이나 가족, 또는 친구의 기대에 영향받은 것이 많다.
몇가지 주제에 대해서 특허 출원을 해 두려고 정리중인데, Claude Code랑 ChatGPT Codex에게 소스에서 알아서 특허 될만한 것 좀 찾아서 정리해봐라고 해 보았다.
결과는 둘 다 상당히 어설프긴 했지만, 둘 다 내가 생각하고 있던 것도 일부 찾아내서 신기했다.
올
... 더 보기