Community

기술의 발전에 따라 기존 문제의 해결 방법이 달라져야한다. RAG에 있어 벡터 서치가 유망하게 떠올랐지만, 기술이 급격하게 발전하면서 그 의미가 퇴색하고 있다. 마치 NoSQL이 나왔을 때, 처음

기술의 발전에 따라 기존 문제의 해결 방법이 달라져야한다. RAG에 있어 벡터 서치가 유망하게 떠올랐지만, 기술이 급격하게 발전하면서 그 의미가 퇴색하고 있다. 마치 NoSQL이 나왔을 때, 처음엔 우와 이게 다 해결해줄거야! 했지만 RDBMS들이 조용히 발전하며, 사실 NoSQL은 로그성 데이터에만 적합하다는 것을 모두가 뒤늦게 깨달았던 것처럼. 벡터 서치가 유망하게 떠올랐던 것은, 자연어로 아무말이나 하는 사용자의 질문과 맥락에 대해 매우 쉽게 기존의 데이터에서 관련된 정보를 뽑아 올 수 있었다는 장점 때문이었다. 사실 벡터 서치의 특성상 정확도와 속도 그리고 확장성은 기존의 BM25(키워드 검색) 대비 크게 떨어질 수 밖에 없지만, 키워드 검색은 특성상 아무말을 넣었을 땐 검색이 잘 안되는데 벡터 서치는 그래도 어느정도는 적절한 정보를 뽑아온다. 무엇보다 신기술(처럼 보)이고 팬시해보이니까 모든 걸 다 해결해줄 것처럼 호들갑이었었다. 나도 좀 그랬고. 하지만, LLM의 성능 그리고 특히 속도가 매우 빨라지고 사용자의 말과 맥락에서 검색 키워드를 뽑아내는 것이 매우 빠르고 정확지면서, 다시 BM25가 빛을 발하게 되었다. 키워드 검색 기술은 이미 매우 성숙해있는 기술이라 검색 성능, 속도나 확장성은 물론이고, 대부분의 정보 시스템은 이미 키워드 검색 시스템을 갖추고 있으니 굳이 벡터 검색을 도입 할 필요도 없다! 게다가 벡터서치의 성능과 속도에 대한 부정적인 논문들이 계속해서 나오고, 긍정적인 사례들은 대부분 수백만건 이내의 적은 데이터에서의 결과들이었다는 것을 모두가 깨닫게 되었고. 물론, 검색해야 할 데이터가 적거나 특수한 경우에는 벡터 서치가 유용한 경우가 있을 수 있다. 하지만 은총알은 아니라는 것이다. 모든 기술엔 각각 적합한 용도가 있다. 뭐 암튼, 그걸 안다고 해도 AI 솔루션 회사, 컨설턴트나 컨설팅 회사들은 앞으로도 벡터디비를 계속 밀 것이다. 왜냐하면 GPU와 서버를 크게 팔아먹을 수 있기 때문이지. NoSQL을 은총알처럼 내세우고 수평 확장이 필요하다며 서버를 여러대 팔려고 했던 이유처럼. 😏 사실 마지막 말이 하고 싶었던건데, 이말만 쓰기엔 좀 소심해서 장문의 글을 끝까지 읽는 사람은 별로 없을거라 장문의 글을 써 보았다. ㅋㅋ

알림

알림이 없습니다