Dataset 수집하는 것에 대한 고민[GPT model에 넣을 dataset 수집]

Question

OpenAI API를 이용하여 기사의 키워드를 예측하는 생성형 AI를 만들고자 합니다. GPT 모델에 넣을 데이터셋도 GPT로 이용해서 만들면 과적합과 같은 문제가 클까요? 제가 만들 데이터셋은 기사 내용 content(700개이상)와 이에 대한 keyword를 csv파일로 만들고자 하였습니다. 데이터셋을 만드는 과정이 처음이라 어떻게 해야할지 감이 잘 안잡히는데 도와주세요..!!

1. 사람이 keyword와 content를 작성하여 한땀한땀 데이터셋을 작성해야 한다

2. GPT가 알아서 content의 keyword를 예측하도록 하여 데이터셋을 만든다. (이 과정에서 과적합 같은 문제가 우려 됨)

3. 아예 어떠한 전처리 없이 기사(articles) 파일을 GPT 모델에 넣고 예측하라고 하기