Binary Quantization for Vector Search

https://huggingface.co/blog/embedding-quantization


보통 vector search에 사용되는 text embedding들은 float32 형태로 저장되는데요, 이 경우 상당히 많은 메모리를 차지한다는 단점이 있습니다.


이를 해결하고자 아래와 같은 방법이 제기되고 있습니다.

  1. bit로 구성된 embedding을 따로 저장해 initial search (cosine similarity가 아닌 hamming similarity 적용)

  2. 상위 결과에 대해서 reranking/rescoring 할 때 flaot32 embdding을 사용


그 결과 ~40배의 검색 속도와 메모리 사용량 감소를 이루어냈고, 반면 성능은 ~96%를 유지했다고 합니다.

더 큰 dimension을 사용하는 embedding들에 더 효과적이었고, bit가 아닌 int8까지만 줄여도 유의미한 효과를 볼 수 있었다고 하네요.


직접 시험해보지 않으면 모르고, 한국어 관련 task에서 결과가 나온 것은 아니지만, 충분히 실험해 볼만한 주제라고 생각됩니다!

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 4일 오전 11:39

댓글 0

    함께 읽은 게시물

    쌀국수를 먹다가

    

    ... 더 보기

    리더십 강의를 듣고, 책을 읽을수록 내 ‘사수’에 대한 갈증과 고민이 깊어진다는 직장인이 많다. 위에는 약하고 아래엔 강한 내 현실 사수의 모습은 ‘합리’와 ‘의리’, 두 마리 토끼를 모두 놓치기 일쑤다. 못남과 못됨을 두루 갖추고 ‘우선 나부터 살고 보자’며 생존술을 내세우는 상사를 보면, ‘10년 후 내 모습’이 연상돼 끔찍하다는 사람이 많다.

    ... 더 보기

    좋은 상사를 만날 것인가. 상사를 좋게 만들 것인가? - 뉴스웨이

    뉴스웨이

    좋은 상사를 만날 것인가. 상사를 좋게 만들 것인가? - 뉴스웨이

     • 

    저장 4 • 조회 440


    < 짜릿한 스릴과 안전함이 최고의 이야기를 만든다 >

    1

    ... 더 보기


    코딩 인터뷰 중 AI를 사용해도 될까요...? 🤔

    코딩 인터뷰를 하던 중 지원자로부터 AI를 써도 되겠냐는 질문을 받았습니다. 인터넷 검색을 해도 되냐고 물어보는 지원자는 종종 만나는데, AI를 써도 되느냐는 질문은 처음 받아봐서 좀 당황스럽더군요. 어떤 용도로 AI를 사용하시려는지 물어보았고, 익숙치 않은 프

    ... 더 보기

     • 

    댓글 1 • 저장 17 • 조회 4,957