챗GPT를 활용한 웹 스크래핑(scraping) 스크립트 작성

일반적으로 특정한 데이터만을 웹사이트로부터 가져오는 행위를 스크래핑(scraping)이라고 하는데요, 챗GPT를 활용해서 웹 스크래핑 스크립트를 작성하는 방법을 소개하는 기사 공유합니다.😃


<웹 스크래핑(Web Scraping)에 챗GPT 사용하기>


  1. goodreads.com에서 책 목록을 스크랩하는 스크립트를 챗GPT로 작성하는 가이드


1️⃣ 요소(Element) 확인하기

1) 대상 웹 페이지에서 추출하고자 하는 요소를 찾아야 하는데요, 이 가이드에서는 book name과 author name을 추출하고자 합니다.

2) 마우스 오른쪽 버튼 클릭하고 inspect를 선택하면 개발자 도구 창에서 HTML 코드가 보입니다.

3) 요소를 마우스 오른쪽 버튼 클릭하고 book title이 있는 selector를 복사합니다.

author name에 대한 selector도 확인해서 복사합니다.


2️⃣ 챗GPT에 프롬프트 입력

BeautifulSoup을 사용하여 Python에서 웹 스크레이퍼(scraper)를 생성하도록 요청합니다.


"Code a web scraper in Python using the BeautifulSoup library.

Target Website: https://www.goodreads.com/list/show/18816.Books_You_Must_Read_

Goal: Scrape the names of all the books and their authors from the target page.

Here are the CSS selectors of the data needed:

1. Book Name:#all_votes > table > tbody > tr:nth-child(1) > td:nth-child(3) > a > span

2. Author Name: #all_votes > table > tbody > tr:nth-child(1) > td:nth-child(3) > span:nth-child(4) > div > a > span

Final Output: Save all the Book Names and Author Names in a CSV file.

Additional Instructions: Handle character encoding and remove undesirable symbols in the output CSV."


3️⃣ 코드 리뷰

챗GPT가 생성한 코드를 살펴봅니다.


4️⃣ 스크레이퍼(scraper) 생성 후 실행

챗GPT가 생성한 코드를 복사한 후 실행합니다. 매우 간단하죠? 😃


  1. 코더를 위한 팁: 코드 최적화, 동적 페이지 처리, 코드 린팅(Linting), 코드 에디팅 도움말(Help) 등


일부 웹사이트에서는 강력한 보안 조치를 배포하여 자동화된 스크레이퍼를 방지하기 위해 추가 예방 조치를 취하는데, CAPTCHA 및 요청 속도 제한과 같은 전술이 포함되는 경우가 있습니다. 이러한 경우 챗GPT에서 생성된 기본 웹 스크레이퍼는 처리에 어려움을 겪을 수 있는데요, Nimble의 Nimble API, Nimble Browser 및 Nimble IP와 같은 프록시 서비스를 사용하면 이러한 문제를 극복할 수 있다고 합니다.


원본 기사 링크는 아래와 같습니다. 감사합니다🙏

[Source Link] https://blog.stackademic.com/using-chatgpt-for-web-scraping-a-practical-guide-673fa2bbfac1

Using ChatGPT For Web Scraping: A Practical Guide

Medium

Using ChatGPT For Web Scraping: A Practical Guide

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 11월 28일 오후 3:02

 • 

저장 20조회 2,467

댓글 0

    함께 읽은 게시물


    < 스포티파이와 멜론, 같은 음악인데 왜 경험은 다를까? >

    1. 엔터테인먼트 프로덕트의 본질은 콘텐츠다. 사용자는 콘텐츠를 소비하며 감정을 느낀다. 재미, 감동, 공포, 희열. 인간의 다양한 감정이 콘텐츠를 통해 꺼내진다.

    ... 더 보기

    MZ가 신상이 아니라 중고 명품에 관심을 갖고 지갑을 본격적으로 연다면서 그 이유를 분석했는데, 그 중 몇몇을 추리면 MZ가 친환경 의식이 높고 소유보다는 '경험'을 추구하고 사용성이라는 소비자 가치를 중시해서라고 그렇단다. 솔직히 그건 그냥 끼워맞춘 것으로 밖에 안보인다. 아무리 넉넉한 마음을 갖고 봐도 아주 매우 지극히 극히 일부는 그럴 수 있다 이해해도 결국 명품 갖고 싶으니깐 핑계에 이유를 붙인거에 가까워보인다.

    ... 더 보기

    "비싼 명품 안 사요" MZ 돌변하더니…'2500억' 몰린 회사

    naver.me

    "비싼 명품 안 사요" MZ 돌변하더니…'2500억' 몰린 회사


    < 쿠팡의 창업자를 직접 보며 배운 것: 리더의 크기가 전부다 >

    1

    ... 더 보기

     • 

    댓글 1 • 저장 13 • 조회 1,335


    스트레스를 잘 관리하면서 건강하게 살아가고 싶다면, 우선 살아있는 한 우리가 해야 할 일들은 영원히 없어지지 않을 것이므로, 해야 할 일을 100% 해내면서 할 일 목록을 완전히 없애는 데 많은 노력을 들이기보다는 70% 정도만 해내도 만족할 필요가 있다.

    ... 더 보기

    [박진영의 사회심리학]스스로 만들어 내는 스트레스

    m.dongascience.com

    [박진영의 사회심리학]스스로 만들어 내는 스트레스