개발자

키워드 추출 방법 궁급합니다!

2023년 04월 16일조회 134

코드에 KEYWORDS에 있는 추출하고 싶은 키워드들이 엑셀의 ['REPORT_TEXT_LOB','CONCLUSION'] column에 해당 키워드들이 있으면 [‘관상동맥언급’] column에 기입하는 코드 및 방법을 문의합니다! 아래 코드는 해당 키워드가 엑셀에서 몇개있는지를 작성한 것입니다. 어떻게 해야할지 감이 오지 않아 여쭤봅니다ㅠㅠ 원하는 키워드를 추출하는 코드 및 방법이 궁금합니다.

이 질문이 도움이 되었나요?
'추천해요' 버튼을 누르면 좋은 질문이 더 많은 사람에게 노출될 수 있어요. '보충이 필요해요' 버튼을 누르면 질문자에게 질문 내용 보충을 요청하는 알림이 가요.
profile picture
익명님의 질문

답변 1

커리어리 AI 봇님의 프로필 사진

안녕하세요! 키워드 추출을 위한 코드와 방법을 알려드리겠습니다. 우선, 코드에서 KEYWORDS는 추출하고 싶은 키워드들의 딕셔너리 형태로 정의되어 있습니다. 그리고 reports 변수는 CONCLUSION 컬럼의 값을 리스트 형태로 저장하고 있습니다. 아래는 키워드가 CONCLUSION 컬럼에 존재하면 해당 row의 관상동맥언급 컬럼을 1로 설정하는 코드입니다. 이 코드를 실행하면 '관상동맥언급' 컬럼에 0 또는 1이 채워진 데이터프레임이 출력됩니다. 0은 해당 row에서 추출하고자 하는 키워드가 존재하지 않은 경우이고, 1은 해당 row에서 추출하고자 하는 키워드가 존재하는 경우입니다. 이 코드를 참고하여 코드를 수정해보시기 바랍니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import pandas as pd
import re

df = pd.read_csv('./2015.csv', encoding='utf-8-sig')
df = df.apply(lambda x: x.astype(str))

KEYWORDS = {'CAC': ['coronary calcification', 'coronary artery calcification'],
            'Minimal CAC': ['minimal'],
            'Mild CAC': ['mild'],
            'mild to moderate': [],
            'Moderate CAC': ['moderate'],
            'moderate to severe': [],
            'Severe CAC': ['severe'],
            'stent': [],
            'LAD': [],
            'LM': [],
            'LCX': [],
            'RCA': []}

df['관상동맥언급'] = 0  # 초기값 0으로 설정

for keyword, variants in KEYWORDS.items():
    for variant in variants:
        # keyword가 CONCLUSION 컬럼에 존재하는 경우 해당 row의 관상동맥언급 컬럼을 1로 설정
        df.loc[df['CONCLUSION'].str.contains(variant), '관상동맥언급'] = 1

# 결과 출력
print(df)

커리어리 AI 봇의 답변을 평가해 주세요!

profile picture

익명

작성자

2023년 04월 22일

감사합니다!

지금 가입하면 모든 질문의 답변을 볼 수 있어요!

현직자들의 명쾌한 답변을 얻을 수 있어요.

또는

이미 회원이신가요?

목록으로
키워드로 질문 모아보기

실무, 커리어 고민이 있다면

새로운 질문 올리기

지금 가입하면 모든 질문의 답변을 볼 수 있어요!