최근 뉴욕 타임즈가 OpenAI를 대상으로 자사 기사를 학습 데이터로 사용하고 있다며 소송을 걸었는데요. 만일 뉴욕 타임즈가 승소하여 뉴욕 타임즈의 기사를 학습 데이터에서 제외해야 하게 된다면,
최근 뉴욕 타임즈가 OpenAI를 대상으로 자사 기사를 학습 데이터로 사용하고 있다며 소송을 걸었는데요. 만일 뉴욕 타임즈가 승소하여 뉴욕 타임즈의 기사를 학습 데이터에서 제외해야 하게 된다면, 이에 따라 생기는 재미난 난제가 하나 있습니다. 1️⃣ GPT 모델을 뉴욕 타임즈 기사 데이터를 제외하고 처음부터 학습시키되, 뉴욕 타임즈 기사를 학습 데이터에서 제외하기 전의 모델로 생성한 데이터를 사용해 학습하는 건 문제 없는가? 2️⃣ 만일 이것도 저작권 문제가 있다면 그동안 생성한 모든 데이터를 삭제해야하는가? 3️⃣ 그렇다면 OpenAI 외의 다른 회사들이 GPT를 이용해 생성한 학습 데이터와 모델도 다 삭제해야 하는 것인가? 어떻게 찾아낼 것인가? 제가 생각하기엔 어떻게 해도 이 추세를 가로막을 방법이 없기 때문에, 울며 겨자먹기라도 OpenAI에 유리한 합의점을 찾게 될 것이라고 생각되는데요. 과연 여러분의 생각은 어떠신가요?