멀티모달 문서에 대해 RAG를 적용하는 전략

RAG는 LLM의 환각을 줄이고 관련성 높은 응답을 생성하기 위한 테크닉입니다. 하지만, 표, 이미지, 그래프 등이 포함된 문서에 대해서는 RAG를 적용하는 것이 쉽지 않습니다.


이를 해결하기 위해서,

  1. 테이블 (이미지 변환) 및 이미지 정보는 멀티모달 LLM을 이용하여 텍스트 형태로 요약

  2. 텍스트 기반 요약 정보는 기존의 임베딩 모델를 이용하여 검색 가능한 형태로 재표현 (Representation)후 색인

전략을 고려해 볼 수 있습니다.


구체적인 과정을 요약하면,

  1. 문서로 부터 멀티모달 정보 (텍스트, 테이블, 이미지)를 다양한 라이브러리(PyPDF, PyMuPDF, LlamaParse, Unstructured.io)를 활용해 추출하기

  2. 테이블을 이미지로 변환하고 특정 크기 이상의 이미지에 대해서는 이미지 크기 재조정

  3. 테이블 및 이미지 정보를 검색 가능한 형태로 요약하기

  4. 텍스로 형태로 변환된 정보들은 임베딩 모델을 거쳐 벡터 DB에 저장

과정을 거쳐 멀티모달 문서에 대한 RAG 적용을 구현할 수 있습니다.


https://aws.amazon.com/ko/blogs/tech/amazon-bedrock-multi-modal-document-rag/

Amazon Bedrock으로 Multi Modal 문서에 대해 RAG 적용 하기 | Amazon Web Services

Amazon Web Services

Amazon Bedrock으로 Multi Modal 문서에 대해 RAG 적용 하기 | Amazon Web Services

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 7월 27일 오후 1:52

댓글 0

    함께 읽은 게시물

    구글 문서.. 넘나.. 빡침.. ㅠㅠ 구글 클라우드 관련된 기능들 문서 보다보면 진짜 대충하자 구글처럼 됨.. 그러고보니 옛날엔 MS가 문서 하나만큼은 진짜 끝내줬는데 요즘은 MS 문서도 머 구글 못지 않음.. 왜때문이죠.. ㅠㅠ


    ⟪한강가는 버스 말고 한강에서 타는 버스⟫

    9

    ... 더 보기

    < 주사위를 던져라, 그것이 곧 삶이다 >

    1

    ... 더 보기

    < 계획 말고 실행, 똑똑함보다 꾸준함이 승리한다 >

    1

    ... 더 보기

    Claude 모델 품질 저하에 대한 포스트모템

    A

    ... 더 보기

    A postmortem of three recent issues

    www.anthropic.com

    A postmortem of three recent issues

    < 피터 드러커의 비즈니스 5원칙 >

    1

    ... 더 보기