질문 - 이미지에서 표 형식 데이터/텍스트를 추출하는 ML 모델 만들기

Question

안녕하세요! 현재 컴공을 재학중이며 지금은 개발자 인턴을 하고 있는 학생입니다.

제가 사이드 프로젝트로 웹앱을 만들고 있는데 백엔드 사이드에서 pdf 혹은 이미지에 있는 표/텍스트를 데이터셋으로 추출을 하고 싶습니다.

처음에는 pdf를 기존의 라이브러리(e.g. Python: PyPDF2, Rust: pdf) 를 사용해서 읽는 방향으로 접근하려 했으나, 
제가 만들고 있는 웹앱의 특성상 서버로 보내지는 pdf 들은 스크린캡쳐가 된 이미지를 pdf로 파싱된 경우가 많아 사실상 텍스트 정보가 pdf 파일 안에 담겨 있지 않아 실패했습니다.

그래서 생각난 방법이 저만의 머신러닝 모델을 만들어서 데이터셋을 파일에서 추출하자 입니다.
하지만 제가 부족한 부분이 너무 많아 조언을 여쭤보고 싶습니다.

제가 만드는 웹앱은 저희 학교 학생 모두가 무료로 사용할 수 있게 배포할 것이고, 호스팅 비용 자체도 저에겐 부담이 되어 무료 호스팅 서비스를 사용하기에 클라우드 서비스 벤더 (AWS, Oracle, Azure...)가 제공하는 머신러닝 모델 서비스는 현실적으로 쉽지 않을것 같고,
파이썬등을 이용하여 처음부터 제가 만들자니 도저히 어디서부터 시작해야 할지 감이 안잡히네요.

그래서 혹시 추천해 주실만한 오픈소스 혹은 무료 서비스, 아니면 어디서 부터 시작해 봐라 라는 조언을 해주시면 너무 큰 도움이 될 것 같습니다!

혹시 제 이해가 부족해 옳지 않은 부분이 있으면 피드백 좀 부탁드리겠습니다(모든 피드백은 감사합니다!).

감사합니다. 좋은 하루 보내세요 :)

커리어리 AI 봇 · Answer

안녕하세요! 웹앱에서 이미지나 PDF에서 표/텍스트를 추출하기 위한 머신러닝 모델을 개발하려는 프로젝트에 관심을 가지고 계신다는 것을 알려주셔서 감사합니다. 아래에 몇 가지 조언을 드릴 수 있습니다:

1. 오픈소스 OCR 엔진 활용: OCR(광학 문자 인식) 엔진은 이미지나 PDF에서 텍스트를 추출하는 데 사용됩니다. Tesseract OCR은 유명한 오픈소스 OCR 엔진 중 하나로, 다양한 언어에 대한 지원과 다양한 이미지 형식에서 텍스트 추출을 제공합니다. Tesseract OCR을 활용하여 이미지에서 텍스트를 추출할 수 있습니다.

2. 사전 훈련된 모델 사용: 이미지에서 텍스트를 추출하기 위해 사전 훈련된 모델을 사용할 수도 있습니다. 예를 들어, Google의 Cloud Vision API는 이미지에서 텍스트를 읽는 기능을 제공하며, 무료로 사용할 수 있는 일부 기능도 제공합니다.

3. 딥러닝 모델 활용: 이미지에서 표를 추출하기 위해 딥러닝 모델을 사용할 수도 있습니다. 예를 들어, 이미지 분할(segmentation)과 표의 구조를 인식하는 딥러닝 모델을 활용하여 표를 추출할 수 있습니다. 이를 위해 TensorFlow나 PyTorch와 같은 딥러닝 프레임워크를 사용하여 모델을 개발할 수 있습니다.

4. 무료 호스팅 서비스 활용: 클라우드 서비스 벤더의 머신러닝 모델 서비스는 비용이 발생할 수 있습니다. 하지만 무료 호스팅 서비스를 활용하여 모델을 호스팅하고 API로 접근할 수도 있습니다. 예를 들어, Google Colab, Heroku, 또는 PythonAnywhere와 같은 서비스를 사용하여 모델을 호스팅하고 웹앱에서 해당 API를 호출할 수 있습니다.

위의 조언들을 참고하시면서 프로젝트를 시작해보세요. 시작할 때는 기술적인 어려움을 겪을 수 있지만, 차근차근 공부하고 실험해보면서 모델을 개발해 나갈 수 있을 것입니다. 필요한 경우 온라인 자료, 튜토리얼, 오픈소스 프로젝트, 그리고 커뮤니티 지원을 활용하여 도움을 받을 수 있습니다. 좋은 프로젝트 진행을 기원합니다!