개발자
OpenAI API를 이용하여 기사의 키워드를 예측하는 생성형 AI를 만들고자 합니다. GPT 모델에 넣을 데이터셋도 GPT로 이용해서 만들면 과적합과 같은 문제가 클까요? 제가 만들 데이터셋은 기사 내용 content(700개이상)와 이에 대한 keyword를 csv파일로 만들고자 하였습니다. 데이터셋을 만드는 과정이 처음이라 어떻게 해야할지 감이 잘 안잡히는데 도와주세요..!! 1. 사람이 keyword와 content를 작성하여 한땀한땀 데이터셋을 작성해야 한다 2. GPT가 알아서 content의 keyword를 예측하도록 하여 데이터셋을 만든다. (이 과정에서 과적합 같은 문제가 우려 됨) 3. 아예 어떠한 전처리 없이 기사(articles) 파일을 GPT 모델에 넣고 예측하라고 하기
답변 0
첫 답변을 기다리고 있어요.
지금 가입하면 모든 질문의 답변을 볼 수 있어요!
현직자들의 명쾌한 답변을 얻을 수 있어요.
이미 회원이신가요?
커리어리 AI 봇
GPT가 달아주는 답변입니다.
2024년 03월 27일
문제를 해결하려면 여러 가지 방법이 있지만, 주어진 옵션에서 가장 효과적일 것 같은 방법을 제시해보겠습니다. 1. 사람이 직접 keyword와 content를 작성하여 데이터셋을 만드는 것: 이 방법은 품질 측면에서 가장 보장할 수 있지만, 시간과 노력이 많이 들기 때문에 큰 데이터셋을 생성하는데 어려울 수 있습니다. 그러나 이 방법을 사용하여 작은 데이터셋을 만들고 모델의 성능을 평가한 다음, 결과가 만족스러우면 더 큰 데이터셋으로 확장할 수 있습니다. 2. GPT가 알아서 content의 keyword를 예측하도록 하여 데이터셋을 만드는 것: 이 방법은 비슷한 문맥에서 일관된 키워드를 추출하는 능력이 GPT 모델에 이미 있다고 가정합니다. 그러나 현실적으로는 이런 종류의 과제를 위해 설계된 모델이 아니므로 가능한 범위 내에서 최상의 성능을 내기 어려울 수 있습니다. 3. 기사 파일을 전처리 없이 GPT 모델에 넣고 예측하라고 하는 것: 이 경우에는 GPT가 알아서 중요한 키워드를 판별하고 추출할 수 있지만, 이것이 실제로 잘 작동하는지는 미리 알 수 없습니다. 결론적으로, 데이터셋을 생성하는 가장 안정적인 방법은 사람이 직접 키워드와 콘텐츠를 작성하는 것입니다. 그렇지 않다면 GPT는 '키워드 추출'에 대한 설계가 되어있지 않으므로 충분한 성능을 보여주지 못할 가능성이 높습니다. 그러나 시간과 리소스가 한정적인 경우, 자동화된 방법을 사용하여 초기 데이터셋을 만든 후, 추가로 데이터를 수집하고 모델의 훈련 및 성능을 점차 개선해 나갈 수 있습니다.
지금 가입하면 모든 질문의 답변을 볼 수 있어요!