지금이 Vector DB 전성시대인가?

Doug Turnbull 님의 블로그를 의역/요약한 글입니다


---

검색 및 NoSQL로 나름 오랜 시간 일한 저로서는 가끔 “Vector DB가 이렇게 많을 필요가 있나?”라고 되묻고는 합니다. 누구나 AI 앱을 만들려는 현재 AI 시대를 고려해도 너무 많은 Vector 데이터 관련 툴들이 범람하고 있고 진정 필요한 것들인지 고민하게 됩니다.

우선 지금 떠오르는 DB, 라이브러리 등을 나열해보자면:


순수 Vector DB

  • Pinecone

  • QDrant

  • Milvus / Zilliz

  • Weaviate

  • Turbopuffer

  • MyScale


오픈 소스 검색 엔진

  • Solr

  • ElasticSearch

  • OpenSearch

  • Vespa


라이브러리

  • Annoy

  • FAISS

  • NMSLib

  • HNSWLib

  • Lucene

  • Chorma

  • 기타 등등


오픈 소스 DB

  • Redis

  • PGVector

  • Cassandra, Mongo, 기타 등등


클라우드 솔루션

  • Google Vertex

  • Azure AI Search


Document 데이터베이스인 Mongo와 CouchDB, 열 기반 데이터베이스인 Cassandra와 HBase 등 벡터 데이터베이스를 NoSQL 형태 중 하나의 카테고리를 놓고 본다면, 다른 카테고리에 비해 너무나도 많은 툴들이 있습니다. 사용자 입장에서는 너무 과하다는 느낌을 받죠.


심지어, 벡터 검색은 엄청 어려운 것이 아닙니다. 정말 어려운 문제들은 검색을 둘러싼 다른 모든 것들이죠. 의도 분류, 추론 및 재 순위, 다양성, 어휘 인출 등이 있죠. 심지어 이게 다가 아닙니다. 우린 새로운 형태로 데이터와 상호 작용하는 방식을 만들고 있습니다. 제가 이야기해본 그 누구도 RAG (Retrieval Augmented Generation - 보다 좋은 결과를 위해 LLM과 외부 데이터베이스 검색을 결합한 시스템)의 품질을 다방면으로 검증할만한 것을 만들어내지 못했습니다. 우린 지금 채팅 또는 채팅 같은 UX로 새로운 실험을 하고 있습니다.


문제는 아직 실험해볼 세계는 넓은데 초반부터 너무 많은 자본이 한 분야에만 투자되고 있습니다. 우린 문제를 좀 더 전체적으로 볼 필요가 있습니다. 검색이라는 것 자체를 다른 관점에서 접근할 필요가 있습니다. NoSQL이 DB에 대해 다시 생각해보게 했듯이 말입니다. 다음 세대의 검색 + 연관성 문제를 해결하기 위해 자본과 지성이 집중돼야 할 곳이 필요합니다.


저의 심술궂고 낡아버린 검색 자아는 “어차피 사람들은 검색 기능이 필요한 걸 알고 Solr이나 ElasticSearch를 쓸거야” 라고 하겠지만 이 정도로는 안됩니다. 현재의 검색 툴은 뭔가 난해해서 일반적인 “AI 개발자”라면 벡터 검색을 도입하려고 할겁니다. 그리고는 제가 언급한 여러 문제들을 마주하며 단순히 ANN (Approximate Nearest Neighbor)뿐 아니라 수많은 것들을 신경 써야함을 알게 될 겁니다. 마찬가지로 검색을 개발하는 개발자들도 무수히 많은 문제들을 마주한 뒤에 Solr 또는 ElasticSearch를 도입하게 되겠죠.


추가적으로 저는 더 많은 분야에서 검색 같은 기술, 검색인데 검색 아닌 기술이 발전할 것으로 봅니다. 특히 실시간 추천 분야에서 벡터 검색이 주요 기술이 될 겁니다. 요즘 많이 쓰는 새벽에 미리 배치 연산하는 방식은 아닐거구요. 그러니, 분명 이쪽 분야에 있는 똑똑한 분들은 단순히 “ANN 성능을 높임/확장성 있게 함” 보다 다방면의 문제를 해결하는 검색 + 랭킹 시스템을 탐구할 것입니다. 사용자들의 문제를 해결하려는 곳에 자본은 유입될 것이고요.


결국엔 NoSQL 처럼 (혁신은 가득하지만) SQL과 공존하는 형태가 될 수도 있고, 사용자가 원하는 다양한 기능들이 탑재된 엄청난 검색 엔진을 벤더들이 만들어버릴 수도 있습니다.

---


원글: https://softwaredoug.com/blog/2024/01/24/are-we-at-peak-vector-db

Are we at peak vector database?

Doug Turnbull's Blog

Are we at peak vector database?

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 1월 26일 오전 10:17

 • 

저장 9조회 1,636

댓글 1

함께 읽은 게시물

🧭 우리만의 디자인 시스템, 어디서부터 시작할까?

... 더 보기

우리만의 디자인 시스템, 어디서부터 시작할까? · DaleStudy/daleui · Discussion #392

GitHub

우리만의 디자인 시스템, 어디서부터 시작할까? · DaleStudy/daleui · Discussion #392

2019년에 저희 팀에서 퍼블리싱한 CHI 논문. 음성 인터페이스 입코딩을 이용한 프로그래밍 교육.

... 더 보기

Claude 너.. 아주 실망이야.. 😑 돈을 저렇게 처묵처묵하고는.. 에잉~

... 더 보기