RAG 아키텍처에서 쉽게 사용할 수 있는 PDF 파서유형 3가지

RAG 아키텍처의 성능은 문서 내용을 정확하게 추출하여 DB에 색인하고 저장하는 것에 크게 의존합니다. RAG 아키텍처에서 쉽게 사용할 수 있는 PDF 파서는 다음과 같은 유형으로 분류할 수 있습니다:


  1. Rule 기반 파서 (PyMuPDF): 사전 정의된 규칙을 기반으로 PDF 파일을 구문 분석합니다. 이 방법은 빠르지만 유연성이 부족합니다.

  2. API 기반 파서 (Llama-Parse): PDF를 업로드하면 파싱된 결과를 반환하는 SaaS 형태의 서비스와 유사한 API 기반 파서가 있습니다. 이러한 솔루션은 공개된 API를 통해 파싱 기능을 제공합니다.

  3. Pipeline 기반 파서 (Unstructured.io): 이 유형의 파서는 일련의 모델 또는 알고리즘을 사용하여 PDF 구문 분석 전체 프로세스를 처리합니다. 각 단계는 자체 하위 작업을 처리하여 전체 작업을 체계적으로 해결합니다.


각 파서들은 아래와 같은 특징을 가지고 있습니다.


PyMuPDF는 대표적인 Rule 기반 파서로, PDF 문서 포맷을 룰 기반으로 해석하여 원본 컨텐츠에 가깝게 텍스트로 파싱합니다. PyMuPDF는 무료 오픈소스 라이브러리로, 경량화되어 있어 대용량 문서 처리에 효율적이며 룰 기반으로 테이블의 원본 레이아웃을 그대로 파싱할 수 있다는 장점이 있습니다. 하지만 PDF 파일만 처리 가능하고, 레이아웃 인식과 테이블 추출 등의 고급 기능이 제한적이며, 스캔된 PDF에 대해서는 별도의 외부 OCR 패키지와 연계해야 하는 단점이 있습니다. 또한, 테이블과 이미지가 복잡하게 구성된 문서의 경우 문서 구조 해석 시 성능이 떨어질 수 있습니다.


LlamaParse는 Gen-AI와 연계하여 PDF 파싱을 효율적으로 처리하고, LLM 편의 기능 및 LlamaIndex와 연계한 최적화 솔루션을 제공하는 API 기반 솔루션입니다. LLM이 파싱 처리를 보조하여 단위가 따로 표현된 테이블도 구조를 인식해 개별 레코드에 단위를 삽입해주며, “Parse Instruction” 기능으로 문서 구조에 대한 힌트를 제시하면 파싱 품질이 높아집니다. 그러나 API 호출이 필요하고, PDF 문서만 지원하며, 하루 1000 페이지까지만 무료이고 그 이상은 별도 비용이 발생합니다. 또한, 복잡한 구조의 테이블은 원본 레이아웃과 다르게 재해석될 수 있어 주의가 필요합니다.


Unstructured.io는 Pipeline 방식으로 PDF를 파싱하는 오픈소스 솔루션으로, 문서의 레이아웃을 분석하여 텍스트, 테이블, 이미지로 구분하여 파싱하는 능력이 뛰어납니다. LangChain과 통합되어 RAG 아키텍처 구성에 용이하게 사용할 수 있으며, 레이아웃 인식, OCR, 테이블 추출 등의 기능으로 복잡한 문서 파싱에 강점이 있습니다. 또한, PDF 외에도 다양한 문서 유형과 URL 파싱을 지원합니다. 그러나 파이프라인 형태로 다양한 솔루션을 조합하여 수행하기 때문에 대용량 문서 파싱 시 속도가 느릴 수 있고, OCR 기반 파싱으로 인해 일반 PDF에서는 Rule 기반 파싱보다 정확성이 떨어질 수 있습니다. 이를 보완하기 위해 Table Transformer를 사용하여 추출된 테이블 레이아웃을 별도 이미지로 저장한 후 LLM이 답변하도록 유도할 수 있습니다.


Unstructured | The Unstructured Data ETL for Your LLM

Unstructured

Unstructured | The Unstructured Data ETL for Your LLM

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 7월 27일 오후 1:55

댓글 0

    함께 읽은 게시물

    < '복잡함'은 게으른 자들의 가장 쉬운 도피처입니다 >

    1. 선택권이 주어졌을 때, 분별 있는 사람이라면 복잡한 길보다 단순한 길을 택할 것이다. ​ ​

    ... 더 보기


    젠슨 황은 어떻게 커리어를 쌓았나

    1. 젠슨 황은 항상 뛰어난 학생이었다. 하지만 다른 사람들과 사회적으로 상호작용하는 법을 배우기란 쉽지 않았다.

    ... 더 보기

    🔍네이버가 쿠팡 고객을 데려왔다고? 팩트 체크해 봤습니다

    ... 더 보기

    네이버플러스 스토어가 쿠팡고객을 데려왔다는 건에 대하여

    www.openads.co.kr

    네이버플러스 스토어가 쿠팡고객을 데려왔다는 건에 대하여

    🍎애플이 잃어버린 것, 구글이 되찾은 것

    A

    ... 더 보기

    애플이 잃어버린 것, 구글이 되찾은 것 [정혜진의 라스트컴퍼니]

    서울경제

    애플이 잃어버린 것, 구글이 되찾은 것 [정혜진의 라스트컴퍼니]

    구성원들이 의욕적으로 협력하고 열정과 에너지가 느껴지는 팀과 조직이 있는 반면, 서로의 일에 무관심하고 타성과 매너리즘에 빠져 무기력하게 하루를 보내는 조직이 있다. 이렇게 차이가 나는 이유는 뭘까? 그것은 근본적으로 팀과 조직을 이끌어가는 리더의 에너지 상태가 다르기 때문이다.

    ... 더 보기

    저성장기, 팀과 조직에 긍정에너지를 불어넣는 에너자이징 리더십이 요구된다 - 포브스코리아(Forbes Korea)

    포브스코리아(Forbes Korea)

    저성장기, 팀과 조직에 긍정에너지를 불어넣는 에너자이징 리더십이 요구된다 - 포브스코리아(Forbes Korea)

    조회 108