멀티모달 문서에 대해 RAG를 적용하는 전략

RAG는 LLM의 환각을 줄이고 관련성 높은 응답을 생성하기 위한 테크닉입니다. 하지만, 표, 이미지, 그래프 등이 포함된 문서에 대해서는 RAG를 적용하는 것이 쉽지 않습니다.


이를 해결하기 위해서,

  1. 테이블 (이미지 변환) 및 이미지 정보는 멀티모달 LLM을 이용하여 텍스트 형태로 요약

  2. 텍스트 기반 요약 정보는 기존의 임베딩 모델를 이용하여 검색 가능한 형태로 재표현 (Representation)후 색인

전략을 고려해 볼 수 있습니다.


구체적인 과정을 요약하면,

  1. 문서로 부터 멀티모달 정보 (텍스트, 테이블, 이미지)를 다양한 라이브러리(PyPDF, PyMuPDF, LlamaParse, Unstructured.io)를 활용해 추출하기

  2. 테이블을 이미지로 변환하고 특정 크기 이상의 이미지에 대해서는 이미지 크기 재조정

  3. 테이블 및 이미지 정보를 검색 가능한 형태로 요약하기

  4. 텍스로 형태로 변환된 정보들은 임베딩 모델을 거쳐 벡터 DB에 저장

과정을 거쳐 멀티모달 문서에 대한 RAG 적용을 구현할 수 있습니다.


https://aws.amazon.com/ko/blogs/tech/amazon-bedrock-multi-modal-document-rag/

Amazon Bedrock으로 Multi Modal 문서에 대해 RAG 적용 하기 | Amazon Web Services

Amazon Web Services

Amazon Bedrock으로 Multi Modal 문서에 대해 RAG 적용 하기 | Amazon Web Services

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 7월 27일 오후 1:52

댓글 0