📝 MP4 파일을 벡터 검색의 텍스트 DB로 사용하는 프로젝트

간만에 신박한 프로젝트를 발견해서 소개해봅니다. 우선 프로젝트의 개요는 다음과 같습니다.


DB 구축: 텍스트를 일정 크기로 쪼갠다(청킹) -> 쪼갠 텍스트를 QR로 만든다 -> QR 이미지를 모두 합쳐 MP4 파일로 만든다


벡터 검색: 텍스트 청크의 벡터 인덱스를 만든다 -> 인덱스와 MP3 프레임의 위치를 맵핑한다 -> 검색시 해당 프레임을 가져와 QR을 디코딩해 데이터로 사용한다


벡터 검색이 중요한 건 아니고, QR과 동영상 파일을 이용해 고효율의 압축DB를 만든 부분이 재밌습니다.


MP4 등의 영상 코덱은 이미지를 고효율로 압축하는데, QR 코드는 검은색과 하얀색의 점으로 이루어진 것이라 압축 효율이 매우 높다는 것에 착안한 것인데요.


텍스트를 QR 코드로 만들면 파일크기가 증가하지만, MP4 압축을 진행하면 그걸 크게 상쇄해서 10배 정도의 압축률을 보여준다고합니다. 일반적인 압축 포맷의 압츅률이 3~4 정도인 것을 생각하면 정말 높은 수준입니다.


보통의 압축 포맷보다는 인코딩 속도가 느릴 것이고, 규모가 커지면 보통의 DB엔진 보다는 retrieving 속도가 느려서 일반적인 제품이나 서비스에 사용하기에는 애매하긴 할텐데요.


그래도 높은 효율로 압축된 상태에서 프레임 번호를 인덱스로 사용해서 중간 청크를 가져오는데 유리하니, 특수 목적의 포터블 데이터베이스로 꽤 유망할 수 있을 것 같다는 생각이 듭니다.


세상엔 진짜 창의력 대장이 많네요. ㅎㅎ 이런건 시간이 지나도 AI가 생각하기 힘들지 않을까요? AI가 이정도의 창의력을 발휘할 날은 언제쯤 올 지 궁금합니다. 😎🍿🥤 #기승전AI


Memvid 레포: https://github.com/Olow304/memvid

GitHub - Olow304/memvid: Video-based AI memory library. Store millions of text chunks in MP4 files with lightning-fast semantic search. No database needed.

GitHub

GitHub - Olow304/memvid: Video-based AI memory library. Store millions of text chunks in MP4 files with lightning-fast semantic search. No database needed.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 6월 6일 오후 1:32

댓글 0