Binary Quantization for Vector Search

https://huggingface.co/blog/embedding-quantization


보통 vector search에 사용되는 text embedding들은 float32 형태로 저장되는데요, 이 경우 상당히 많은 메모리를 차지한다는 단점이 있습니다.


이를 해결하고자 아래와 같은 방법이 제기되고 있습니다.

  1. bit로 구성된 embedding을 따로 저장해 initial search (cosine similarity가 아닌 hamming similarity 적용)

  2. 상위 결과에 대해서 reranking/rescoring 할 때 flaot32 embdding을 사용


그 결과 ~40배의 검색 속도와 메모리 사용량 감소를 이루어냈고, 반면 성능은 ~96%를 유지했다고 합니다.

더 큰 dimension을 사용하는 embedding들에 더 효과적이었고, bit가 아닌 int8까지만 줄여도 유의미한 효과를 볼 수 있었다고 하네요.


직접 시험해보지 않으면 모르고, 한국어 관련 task에서 결과가 나온 것은 아니지만, 충분히 실험해 볼만한 주제라고 생각됩니다!

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 4일 오전 11:39

댓글 0

    함께 읽은 게시물

    🔥IT 직군 취업과 커리어 성장을 위한 사이드 프로젝트 참여자 모집🔥

    ... 더 보기

    결과보다 과정을

    

    ... 더 보기

    잡코리아가 2040 직장인을 대상으로 직장 내 추구미를 조사한 결과를 발표했다. 젊은 직장인들은 연봉 못지않게 도덕성, 공정성, 회사 운영방식과 가치관 등을 중요하게 생각했다.

    ... 더 보기

    2040 직장인의 추구미 "연봉보다 중요한 건..."

    톱클래스

    2040 직장인의 추구미 "연봉보다 중요한 건..."

    조회 113


    젠슨 황은 어떻게 커리어를 쌓았나

    1. 젠슨 황은 항상 뛰어난 학생이었다. 하지만 다른 사람들과 사회적으로 상호작용하는 법을 배우기란 쉽지 않았다.

    ... 더 보기

    잘못된 판단으로 이직하면 커리어가 망가질 수 있습니다.

    ... 더 보기

    스뉴가 인스타그램 계정을 만들었습니다.

    ... 더 보기

    Instagram

    www.instagram.com

    Instagram