개발자

Dataset 수집하는 것에 대한 고민[GPT model에 넣을 dataset 수집]

2024년 03월 27일조회 34

OpenAI API를 이용하여 기사의 키워드를 예측하는 생성형 AI를 만들고자 합니다. GPT 모델에 넣을 데이터셋도 GPT로 이용해서 만들면 과적합과 같은 문제가 클까요? 제가 만들 데이터셋은 기사 내용 content(700개이상)와 이에 대한 keyword를 csv파일로 만들고자 하였습니다. 데이터셋을 만드는 과정이 처음이라 어떻게 해야할지 감이 잘 안잡히는데 도와주세요..!! 1. 사람이 keyword와 content를 작성하여 한땀한땀 데이터셋을 작성해야 한다 2. GPT가 알아서 content의 keyword를 예측하도록 하여 데이터셋을 만든다. (이 과정에서 과적합 같은 문제가 우려 됨) 3. 아예 어떠한 전처리 없이 기사(articles) 파일을 GPT 모델에 넣고 예측하라고 하기

이 질문이 도움이 되었나요?
'추천해요' 버튼을 누르면 좋은 질문이 더 많은 사람에게 노출될 수 있어요. '보충이 필요해요' 버튼을 누르면 질문자에게 질문 내용 보충을 요청하는 알림이 가요.

답변 0

답변이 없을 때 보이는 아이콘

첫 답변을 기다리고 있어요.

지금 가입하면 모든 질문의 답변을 볼 수 있어요!

현직자들의 명쾌한 답변을 얻을 수 있어요.

또는

이미 회원이신가요?

목록으로
키워드로 질문 모아보기

실무, 커리어 고민이 있다면

새로운 질문 올리기

지금 가입하면 모든 질문의 답변을 볼 수 있어요!