#dataset

질문 1
해시태그 없이 키워드만 일치하는 질문은 개수에 포함되지 않아요.

일 년 전 · 레인파파 님의 질문

Dataset 수집하는 것에 대한 고민[GPT model에 넣을 dataset 수집]

OpenAI API를 이용하여 기사의 키워드를 예측하는 생성형 AI를 만들고자 합니다. GPT 모델에 넣을 데이터셋도 GPT로 이용해서 만들면 과적합과 같은 문제가 클까요? 제가 만들 데이터셋은 기사 내용 content(700개이상)와 이에 대한 keyword를 csv파일로 만들고자 하였습니다. 데이터셋을 만드는 과정이 처음이라 어떻게 해야할지 감이 잘 안잡히는데 도와주세요..!! 1. 사람이 keyword와 content를 작성하여 한땀한땀 데이터셋을 작성해야 한다 2. GPT가 알아서 content의 keyword를 예측하도록 하여 데이터셋을 만든다. (이 과정에서 과적합 같은 문제가 우려 됨) 3. 아예 어떠한 전처리 없이 기사(articles) 파일을 GPT 모델에 넣고 예측하라고 하기

개발자

#dataset

#gpt

#openai

#keywords-extraction

답변 0

댓글 0

조회 26

3년 전 · 익명 님의 새로운 댓글

순환신경망으로 학습해도 되는 데이터인지 궁금합니다.

캐글 주소: https://www.kaggle.com/datasets/arashnic/animal-behavior-analysis?resource=download 안녕하세요! 위에 있는 캐글 데이터셋으로 모델을 학습해보고 싶은데, 어떻게 시작해야할지 감이 오지않아서 글 남겨봅니다. 위의 데이터셋은 반려견의 목과 등에 센서 장치를 부착해서 0.1초마다 얼마나 이동했는지 측정치를 기록하고, 반려견이 어떤 행동을 하고있는지도 함께 기록해놓은 데이터셋입니다. 이를 통해서 반려견의 행동을 예측하는 모델을 학습해보고 싶은데, 0.1초마다 반려견의 움직임이 기록되어서 어떠한 움직임이 지속되었을 때 이러한 행동을 하고 있는 중이라고 기록되어있는 데이터인만큼, 시간의 흐름이 중요한 데이터인 것 같아서 순환신경망 모델을 적용해야하나 생각도 들었습니다만, 순환신경망은 예측 결과 값도 입력과 같은 숫자로 나오는 모델인 것 같아서, 이 데이터와 같이 시간의 흐름이 중요하지만 어떠한 행동을 하고 있는지 class로 예측 결과를 내야하는 경우에는 어떻게 학습시켜야할지 조언을 들어보고 싶습니다. 제 자신도 아직 지식이 부족해서 질문 내용도 많이 부족하지만 혹시 도움을 받을 수 있을까 싶어서 글 남겨봅니다..! 감사합니다ㅠㅠ

개발자

답변 1

댓글 1

조회 187