Amazon Bedrock의 파운데이션 모델을 활용한 효과적인 PDF 파싱을 위한 프롬프트 엔지니어링 기법 | Amazon Web Services
Amazon Web Services
PDF는 문서 공유와 보전에는 편리하지만, 내부 데이터를 추출하고 가치 있는 인사이트를 도출하기에는 다양한 기술적 접근이 고려되어야 합니다. PDF 파일에서 데이터를 추출할 때, 추출 대상이 스캔 된 이미지인 경우 일반적으로 광학 문자 인식(Optical Character Recognition, OCR) 기술이 사용됩니다. 그러나 PDF 파일은 텍스트 뿐만 아니라 이미지, 테이블, 차트 등 다양한 요소로 구성되어 있어 OCR 기술만으로는 데이터 추출에 한계가 있습니다.
이러한 경우, GenAI를 활용하여 PDF 파일의 컨텍스트를 이해하고 중요 정보를 추출하는 방식을 고려해 볼 수 있습니다.
주요 프롬프트 엔지니어링 기법은 다음과 같습니다:
작업 설명 (Task Description)
예시 제공 (Few-shot Prompting)
XML 태그 활용 (XML Tag Prompting)
반복적인 질의 (Iterative Querying)
결과 재순환 (Result Recycling)
프롬프트 엔지니어링 기법을 활용하여 실제 프롬프트를 개발하는 경우, 아래와 같은 라이프 사이클을 가지게 됩니다.
테스트 사례 확인: 프롬프트 개발의 첫 단계로, 테스트할 사례를 정의하고 확인 합니다.
예비 프롬프트: 초기 프롬프트를 작성하는 단계 입니다.
사례별 프롬프트 테스트: 작성된 프롬프트를 다양한 사례에 적용하여 테스트 합니다.
프롬프트 구체화: 테스트 결과를 바탕으로 프롬프트를 더욱 구체화하고 개선합니다.
프롬프트 완성: 최종적으로 프롬프트를 완성하는 단계 입니다.
자세한 내용은 아래 블로그를 확인하세요!
https://aws.amazon.com/ko/blogs/tech/amazon-bedrock-claude3-parsing/
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 8월 6일 오전 8:32