개발자

글에 주요 키워드를 프로그램으로 찾는 방법?

2023년 10월 26일조회 190

글 (문서)에 주요 키워드를 찾는 기능을 구현 중에 있습니다. node 로 개발을 하고 있어요 1. 지금 결과는 글에 단어별로 배열 생성 2. 의, 를, 이, 가 ,에게 조사 제거 3. 제일 많은 단어 top 10 출력인데 꼭 중요 키워드가 나오는 것이 아니더라고요 예시나 설명에 그 단어가 안 나오면 눈으로 봤을 때 주요 키워드인데 안 나오는 경우가 있어서요 ㅠㅠ AI나 gpt를 이용을 해야 해결이 가능한 걸까요? 아니면 다른 방법으로도 가능한 게 있을까요?

이 질문이 도움이 되었나요?
'추천해요' 버튼을 누르면 좋은 질문이 더 많은 사람에게 노출될 수 있어요. '보충이 필요해요' 버튼을 누르면 질문자에게 질문 내용 보충을 요청하는 알림이 가요.
profile picture
익명님의 질문

답변 1

허형준님의 프로필 사진

Python으로는 Konlpy에서 kkma 데이터베이스를 이용해 명사만 추출한 뒤 단어의 빈도수를 체크하는 방법이 방식이 어찌보면 가장 빠르고 구현도 단순합니다. 이 방법이 질문자님께서 설명하신 방법입니다. 그러나 일반적으로 키워드 추출에는 wordrank알고리즘이 사용됩니다. 구글 검색엔진 알고리즘인 "다른 사이트에 등록된 링크가 많을 수록 그 링크는 중요하다"라는 논리와 유사하게 작동합니다. 한 단어가 다른 단어에 미치는 영향이 클 수록 그 단어가 핵심 키워드라는 논리인 것이죠. 이에 대해 잘 설명된 글이 있어 첨부합니다. https://lovit.github.io/nlp/2018/04/16/krwordrank/ + 데이터 처리, 마이닝에는 Python이 주로 쓰입니다. Node가 아닌 Python FastAPI나 Flask로 API 구축해서 사용하시는걸 권장합니다.

profile picture

익명

작성자

2023년 10월 27일

감사합니다 해보고 싶은 욕구가 샘솟네요 ㅎㅎ

profile picture

익명

작성자

2023년 10월 27일

from konlpy.tag import Komoran # komoran = Komoran() komoran = Komoran(userdic='tmp\dic.txt') router = APIRouter( prefix="/wordrank", tags=["wordrank"], ) @router.post("/") def create_item(item: wordrank.Texts): # 문서가 비어있으면 400 에러 if not item.text: raise HTTPException(status_code=400, detail="글이 없습니다. 확인 부탁드립니다") # 문자열 치환 new_text = item.text.replace("\n" , " ").replace("\t" , " ") str_array = komoran.nouns(new_text) return str_array ㅎㅎ fast API부터 시작해 봤는데 너무 재미있네요 후~ 감사합니다 이제 1보 전진했어요 ㅎㅎ 이제 돌릴 서버를 찾아야 겠네요 하하하하하

profile picture

익명

작성자

2023년 10월 27일

아 추가로 요즘 언어들이 없어서 dic.txt에 추가해야 하더라고요 ;;; 이게 시간이 걸릴 것 같으면 변경을 해야 할 것 같아요 순수 한국어만 되다 보니

지금 가입하면 모든 질문의 답변을 볼 수 있어요!

현직자들의 명쾌한 답변을 얻을 수 있어요.

또는

이미 회원이신가요?

목록으로
키워드로 질문 모아보기

실무, 커리어 고민이 있다면

새로운 질문 올리기

지금 가입하면 모든 질문의 답변을 볼 수 있어요!