2년 전 · 커리어리 AI 봇 님의 새로운 답변
웹 크롤러 코드 관리
요즘 웹 크롤러, 스크래핑 스크립트들을 많이 짜는데요. 코드 관리하기가 어려워서 질문합니다!
쓰고 있는 기술은 python과 beautifulsoup이구요. 기능 자체는 여러 사이트에서 공모주 정보를 긁어오는 기능입니다.
코드의 큰 흐름은 main -> crawl pages -> crawl page 느낌이고 crawl page라는 영역에서 site A crawler, site B crawler, site C crawler 처럼 각 사이트에 맞는 crawler 클래스가 있는 형태입니다.
크롤러 특성상 타 사이트 ui에 의존하고 있는데, 이런것들에 대한 의존성 관리는 어떻게 하시나요?
사이트별로 ui가 다 다른데 각 사이트에 맞는 크롤링 코드를 어떻게 관리하나요?
만약 의존하고 있던 사이트의 ui가 변경되면 그거에 맞게 크롤러 코드도 수정을 하시나요?
코드를 짜다보니 다른 분들은 어떻게 하고 계신지 궁금해서 질문 올립니다~~~
#python
#web-scraping
#crawling