이명진

한국레드햇 솔루션 아키텍트

LLM도 잘 못하는 PDF 문서 파싱은 어떻게 할까요?

최근 ChatGPT와 같은 LLM(Large Language Model)의 영향으로 NLP(Natural Language Processing)를 사용하려는 분들이 많은데요, NLP 학습에 있어 가장 많이 사용하는 텍스트 타입이 PDF가 아닐까 합니다.

NLP를 위한 PDF를 파싱하는 소소한 팁(Tip) 하나(LayoutPDFReader 사용)를 알려주는 기사 공유합니다😃

<PDF 마스터하기: 최신 파서를 사용하여 섹션, 제목, 단락 및 표 추출하기>

🚌 PDF 파싱은 복잡하고 어렵습니다. 그 이유는...

레이아웃 복잡성: 다중 열 텍스트, 표, 이미지 및 복잡한 서식과 같은 복잡한 레이아웃 다양성으로 인해 구조화된 데이터 추출이 복잡해짐
글꼴 인코딩 문제: PDF는 다양한 글꼴 인코딩 시스템을 사용하며 이러한 시스템 중 일부는 유니코드에 직접 매핑되지 않음
비선형 텍스트 저장: PDF는 페이지에 나타나는 순서대로 텍스트를 저장하지 않고, 페이지의 어느 위치에나 배치할 수 있는 개체에 텍스트를 저장
일관되지 않은 공백 사용: 일부 PDF에서는 공백이 일관되게 사용되지 않거나 단어 사이에 전혀 사용되지 않음

❗️Retrieval-Augmented Generation (RAG)이 필요한데요, 그 이유는...

LLM이 한 번에 처리할 수 있는 텍스트의 양과 참조할 수 있는 정보의 범위 측면에서 특정 제한이 있어 PDF 처리를 잘 못해요.

RAG와 같은 기술은 PDF의 한계를 극복하여 대용량 문서를 보다 효과적이고 효율적으로 처리하고 광범위한 정보 검색을 가능하게 합니다.

🚙 LLM 관련 앱을 구축하는 맥락(context)에서 청킹(chunking)은 큰 텍스트 조각을 더 작은 세그먼트로 나누는 프로세스인데요, 이는 LLM을 사용하여 콘텐츠를 삽입한 후 데이터베이스에서 가져온 콘텐츠의 관련성을 최적화하는 데 도움이 되는 필수 기술로써 관련된 전략은...

고정 크기 청킹(Fixed-size chunking): 청크에 대한 가장 일반적이고 간단한 접근 방식으로, 청크에 있는 토큰 수를 결정하고 선택적으로 토큰 간에 중복이 있어야 하는지 여부를 결정합니다. 구현하기 쉽고 가장 일반적으로 사용되지만 추가 테스트를 수행하면 정확도가 떨어지기 때문에 운영환경에서는 권고하지 않습니다.
콘텐츠 인식 청킹(“Content-aware” chunking): 청킹하는 콘텐츠의 특성을 활용하고 더 정교한 청킹을 적용하기 위한 일련의 방법으며, 구현이 어렵지만 올바르게 처리된다면 운영환경의 정보 검색(Information Retrieval) 엔진을 위한 가장 이상적인 구성 요소가 될 수 있습니다.

❗️"컨텍스트 인식" 청킹을 위한 LayoutPDFReader는 계층적 레이아웃 정보와 함께 PDF를 구문 분석하여 RAG에서 가장 중요한 도구 역할을 할 수 있는데요. 그 특징으로는...

섹션과 하위 섹션을 각각의 계층 구조 수준과 함께 식별
줄을 일관된 단락으로 병합
섹션과 단락 사이의 연결을 설정
테이블을 인식하고 해당 섹션과 연결
목록 및 중첩 목록 구조를 정밀하게 처리
Smart Chunking을 사용한 벡터 검색 및 RAG
- 이전 단락과 함께 모든 목록 항목을 함께 그룹화
- 테이블 내의 항목은 함께 청크
- 섹션 헤더와 중첩된 섹션 헤더의 상황별 정보를 통합

LayoutPDFReader는 다양한 PDF에 대해 광범위한 테스트를 거쳤지만, 그렇다고 하더라도모든 PDF에 대해 완벽한 구문 분석을 달성하는 것은 여전히 어려운 작업이라고 하네요.

또한 현재 OCR(광학 문자 인식) 기능을 사용할 수 없고, 텍스트 레이어가 포함된 PDF만 지원한다고 합니다.

원본 기사 링크는 아래와 같습니다. 감사합니다🙏

[Source Link] https://blog.llamaindex.ai/mastering-pdfs-extracting-sections-headings-paragraphs-and-tables-with-cutting-edge-parser-faea18870125

Mastering PDFs: Extracting Sections, Headings, Paragraphs, and Tables with Cutting-Edge Parser

Medium

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 10월 29일 오후 1:44

•

저장 6 • 조회 2,235

함께 읽은 게시물

장홍석

스페이스오디티 부대표/CPO

하루 전

< 좋다 좋다 할수록, 왜 더 힘들어질까 >

댓글 1 • 저장 1 • 조회 225

레드버스백맨

리서처 앤 라이터

2일 전

《커튼의 섬세한 주름이 주는 온유함》

매

저장 1 • 조회 295

장홍석

스페이스오디티 부대표/CPO

15시간 전

< 계획은 틀리고, 사람은 자란다 >

댓글 1 • 저장 1 • 조회 67

Arawn Park

Senior Engineer & Engineering Lead

14시간 전

FEConf 2025를 다녀오다

오

FEConf 2025

2025.feconf.kr

조회 153

레드버스백맨

리서처 앤 라이터

2일 전

⟪뾰족한 강점 하나를 가진 제너럴리스트를 선호하는 기업, 감마⟫

오

감마 : ‘PPT AI’가 5000만 유저 얻기까지, 40인 초소형 팀의 행동력

LongBlack

저장 4 • 조회 432

비슷한 게시물

백선환 AWS/ AIML Specialist

PDF의 데이터를 GenAI로 이해하고 활용하기 위한 프롬프트 기법

이인영 Data Analytics Engineer

📊 데이터분석가는 챗GPT를 이렇게 씁니다 - 3

이인영 Data Analytics Engineer

📊 데이터분석가는 챗GPT를 이렇게 씁니다 - 1

영현 GeoAI 연구원

📌 생성형 AI 모델 도입을 위한 핵심 고려사항

백선환 AWS/ AIML Specialist

멀티모달 문서에 대해 RAG를 적용하는 전략

김수민 삼성전자 Senior User Experience Designer

프롬프트 엔지니어링 : XML 태그 사용하기

주간 인기 TOP 10

K리그 프로그래머 커피한잔 개발자

진짜 1인 개발자 전성시대

황경찬(Boaz) P.E.C CEO

혹시 Claude 나 cursor 등 AI 로 개발하실 때 뭔가

골빈해커 Chief Maker

이력서 노션으로 절대 쓰지 마세요.

한성규 '지금 써보러 갑니다' '팁스터 뉴스레터' 운영자

“무엇을 만들까”보다 “왜 해야 하나요?”를 묻는 사람들, 토스페

장홍석 스페이스오디티 부대표/CPO

< 모든 선택지를 검토하다 아무것도 못 하는 당신에게 >

달레 Apollo GraphQL Software Engineer

🍜 짜파게티가 왜 거기서 나와?

psmon 블룸에이아이 서버 엔지니어

액터모델을 이용 이벤트소스/클러스터상태관리를 우아하게하기 - 코틀

Arawn Park Senior Engineer & Engineering Lead

첫 회사보다 중요한 것

김문수 토스 데이터 엔지니어 | ex-뱅크샐러드

토스 데이터 직군 집중 채용 - 면접만 봐도 100만원!

우디디자인랩 대표ㅣ프로덕트 디자이너

면접에서 진심을 보여주는 마지막 질문

LLM도 잘 못하는 PDF 문서 파싱은 어떻게 할까요?

댓글 0

함께 읽은 게시물

< 좋다 좋다 할수록, 왜 더 힘들어질까 >

《커튼의 섬세한 주름이 주는 온유함》

< 계획은 틀리고, 사람은 자란다 >

FEConf 2025를 다녀오다

⟪뾰족한 강점 하나를 가진 제너럴리스트를 선호하는 기업, 감마⟫

비슷한 게시물

주간 인기 TOP 10

추천 프로필