Text Embedding Models

LLM 뿐만아니라 요즘은 Text Embedding 쪽도 기술 발전이 빠르고, 경쟁이 치열한데요.

Embedding 모델도 여러가지 모델들이 존재합니다.

LLM leaderboard와 같이 [MTEB leaderboard](https://huggingface.co/spaces/mteb/leaderboard)를 통해서 오픈소스 embedding 모델들의 현재 점수들을 확인할 수 있습니다.


하지만 많은 회사들이 Long-context 지원(8k input), 사용 편리성, 속도와 품질 등을 고려해서 open ai에서 만든 text-embedding-ada-002 모델을 많이 사용하고 있는데요.

(text-embedding-ada-002 내용 참고: https://openai.com/blog/new-and-improved-embedding-model)


최근 Jina AI에서도 8K context input을 지원하는 모델을 오픈소스로 공개했습니다. 자세한 설명은 아래의 링크를 참고해주세요.

참고 - https://jina.ai/news/jina-ai-launches-worlds-first-open-source-8k-text-embedding-rivaling-openai/?utm_source=pytorchkr


또한 Cohere에서는 MTEB leaderboard 등의 SOTA 모델로 Embed v3을 공개했으며, multilingual도 지원하고 있습니다. 실제로 국내 스타트업들에서도 cohere 의 multilingual 모델을 많이 사용하고 있는 것 같습니다. 자세한 설명은 아래의 링크를 참고해주세요.

참고 - https://txt.cohere.com/introducing-embed-v3/?utm_source=pytorchkr

Introducing Embed v3

Context by Cohere

Introducing Embed v3

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 11월 18일 오전 6:21

 • 

저장 8조회 1,354

댓글 0

    함께 읽은 게시물

    "4050 패션 플랫폼 포스티(Posty)는 올 3~4월 신규 고객 수가 전년 동기 대비 2배 증가했다고 밝혔다. 신규 구매자 수는 전년 동기 대비 85% 증가했으며, 해당 기간 전체 주문 고객 중 신규 구매자 비중이 30%였다.

    ... 더 보기

    카카오스타일 포스티, 올 3~4월 신규 고객 수 2배 증가 – 바이라인네트워크

    바이라인네트워크

    카카오스타일 포스티, 올 3~4월 신규 고객 수 2배 증가 – 바이라인네트워크

    개발자의 장애 공유 문화

    ... 더 보기

    개발자의 장애 공유 문화

    K리그 프로그래머

    개발자의 장애 공유 문화

     • 

    저장 23 • 조회 4,057


    이직의 조건

    

    ... 더 보기

    기회

    

    ... 더 보기

    조회 443


    🎯 유튜브에 100번째 코딩 테스트 문제 풀이 영상을 올렸습니다!

    ... 더 보기

    달레의 코딩 테스트

    www.youtube.com

    달레의 코딩 테스트

    Product Designer 그리고 Frontend(RN App) 혹은 Backend Engineer(Python/TS)를 곧 모셔야할 듯.. 요즘은 어디로 가야 좋은 분들을 만날 수 있으려나요. 디자인과 개발을 즐기는 사람이라면 경력자가 아니어도 괜찮은데..

     • 

    저장 1 • 조회 3,762