박승규

카카오계열사에서 이것저것 만드는 개발자

crawl4AI - openai api를 사용한 크롤링

crawl4AI는 크롤링을 위한 파이썬 패키지입니다.

기본적으로 웹페이지의 텍스트들을 잘 가져옵니다.

여기까지만 하면 여타 다른 크롤링 라이브러리와 다른점이 없습니다만,

좋은 부분은 openai의 api와 연동할 수 있다는 점입니다.

그렇게 하면 웹페이지에서 가져온 데이터들을 토대로 원하는 데이터만 쏙쏙 뽑을 수 있습니다.

테스트로 https://news.daum.net/의 데이터를 뽑아 달라고 했는데, 잘 만들어줍니다.

코드는 요거 밖에 안됩니다.

async def main():
    async with AsyncWebCrawler(verbose=True) as crawler:
        result = await crawler.arun(
            url='https://news.daum.net/',
            word_count_threshold=1,
            extraction_strategy=LLMExtractionStrategy(
                provider="openai/gpt-4o-mini", api_token=os.getenv('OPENAI_API_KEY'),
                schema=OpenAIModelFee.schema(),
                extraction_type="schema",
                instruction="""뉴스타이틀과 url을 뽑아서 다음과 같은 JSON포맷으로 출력해주세요.
                [
                  {"title": <>, "url": <> },
                  {"title": <>, "url": <> },
                  ...
                ]
                """
            ),
            bypass_cache=True,
        )
        print(result.extracted_content)

결과물도 잘 나오네요..

[ 
   {
        "title": "'개미 무덤' 오명에 4000억 투입…네이버, 주가부양 나서",
        "url": "https://news.daum.net/20240930/한경비즈니스/20240930102405045scye",
        "error": false
    },
    {
        "title": "수소차도 휩쓰는 中… 한·미·일·유럽 합종연횡 속도",
        "url": "https://news.daum.net/20240930/조선비즈/20240930104141207irbp",
        "error": false
    },
    {
        "title": "\"10억 넘게 번다\"…강남 '분상제' 청약 열풍",
        "url": "https://news.daum.net/20240930/이데일리/20240930104508702gsln",
        "error": false
    },
... 생략 
]

https://github.com/unclecode/crawl4ai

GitHub - unclecode/crawl4ai: 🔥🕷️ Crawl4AI: Open-source LLM Friendly Web Crawler & Scrapper

GitHub

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 9월 30일 오전 2:03

•

저장 15 • 조회 2,282

함께 읽은 게시물

김의중

프론트엔드 개발자

6일 전

이력서는 붙는데 면접에서 계속 떨어진다면?

이

개발자로 성장하는 데 필요한 건 어떤 태도일까? | 우아한 형제들 출신 멘토님

F-Lab : 상위 1% 개발자들의 멘토링

•

저장 27 • 조회 2,170

테디노트

지식 크리에이터👍

2024년 10월 07일

🔥Tools/Toolkits & Agent, Agentic RAG🔥

튜

CH16 에이전트(Agent)

위키독스

저장 3 • 조회 296

석민

커리어 코치

3일 전

어려운 문제를 대하는 태도

저장 3 • 조회 568

한정수

Software Engineer

2일 전

작년에 읽은 34권의 책 중 가장 좋았던 책

2024년에 밑줄 친 문장들

1nteger 🏄🏻‍♂️

•

저장 9 • 조회 984

HoJoong Kim

Senior IT guy

2023년 09월 13일

데이터 엔지니어로 성장하고 싶다면~

🍀 데이터 엔지니어란? 소프트웨어 엔지니어링과 프로그래밍의 업무 역량 사이의 간극을 메우는 전문가로 데이터 엔지니어는 고급 분석 기술, 강력한 프로그래밍 기술, 통계적 지식, 빅데이터 기술에 대한 명확한 이해를 갖춘 사람입니다. 🍀 데이터 엔지니어는 어떤 일을 하나요? 정형 및 비정형 데이터에 쉽게 액세스할 수 있는 데이터 인프라를 설계, 관리, 테스트, 유지, 저장하고 작업을 하며, 대규모 데이터 처리를 탐색하고 확장 가능하고 안정적인 작업 환경을 보장하기 위해 전문 지식과 소프트 스킬 필요 🔱 서버와 애플... 더 보기

15+ Must Have Data Engineer Skills in 2023

Knowledgehut

저장 40 • 조회 2,925

Arawn Park

Senior Engineer & Engineering Lead

5월 4일

무너지고 있는 프론트엔드, 백엔드 직군의 경계에 대한 고찰

AI 기술이 우리 일상과 산업 전반에 스며들면서 소프트웨어 개발 환경 역시 큰 변화의 물결을 맞이하고 있다. 특히 코딩을 돕는 AI 에이전트의 등장은 개발 생산성에 대한 큰 변화를 만들고 있다. 나 역시 이러한 변화를 체감하며, 나에게 익숙한 소프트웨어 개발의 대표적인 두 축인 프론트엔드와 백엔드 영역에서 AI 기술이 미치는 영향과 그로 인해 변화하는 소프트웨어 엔지니어의 역할에 대해 개인적인 생각을 정리해 본다.

•

저장 38 • 조회 4,791

비슷한 게시물

박승규 카카오계열사에서 이것저것 만드는 개발자

AI의 놀라운 발전: 27년 된 VB4 실행 파일을 파이썬으로 변환하다!

진용진 Product manager

앤드류 응의 무료 코스가 있어 공유드립니다. 기술적 배경이 없어도 파이썬 기반 AI 애플리케이션 개발을 학습할 수 있는 코스입니다 :)

이명진 한국레드햇 솔루션 아키텍트

스크래치(Scratch)를 이용한 자율적인 AI 에이전트 만들기

박승규 카카오계열사에서 이것저것 만드는 개발자

플라스크 창시자가 알려주는 AI 사용법

박승규 카카오계열사에서 이것저것 만드는 개발자

Python 3.13에 대해 알아야할 모든 것 – JIT와 GIL의 향상

이권수 Sendbird Software Engineer

Python Property & Descriptor

주간 인기 TOP 10

김의중 프론트엔드 개발자

이력서는 붙는데 면접에서 계속 떨어진다면?

동크루트 AI 엔지니어, SW 엔지니어

6월 초, 새로운 바이브 코딩과 SW 개발의 전환의 시대

골빈해커 Chief Maker

🪄 플레이모어와 함께할 동료를 찾습니다

장홍석 스페이스오디티 부대표/CPO

< PM/PO 커리어 3단계: 당신은 How, What, Why

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

“직원들에게 월급 외에 출근할 이유를 줘야 합니다. 팀장이 좋다던

달레 Apollo GraphQL Software Engineer

Kotlin의 Scope 함수 정리

석민 커리어 코치

결과보다 과정을

기묘한 트렌드라이트 발행인

🔍네이버가 쿠팡 고객을 데려왔다고? 팩트 체크해 봤습니다

Somewon Yoon 프로젝트 썸원 Content Owner

젠슨 황은 어떻게 커리어를 쌓았나

이재호 책 <일 잘하는 팀장> 저자. 네오위즈 AI 개발자

고난이 사람을 키운다

crawl4AI - openai api를 사용한 크롤링

댓글 0

함께 읽은 게시물

이력서는 붙는데 면접에서 계속 떨어진다면?

🔥Tools/Toolkits & Agent, Agentic RAG🔥

어려운 문제를 대하는 태도

작년에 읽은 34권의 책 중 가장 좋았던 책

데이터 엔지니어로 성장하고 싶다면~

무너지고 있는 프론트엔드, 백엔드 직군의 경계에 대한 고찰

비슷한 게시물

주간 인기 TOP 10

추천 프로필