< AI 모델의 새로운 리스크. 트레이닝 데이터 역추적 >
● 배경
- 자연어 처리 모델에 투입되는 트레이닝 데이터에 개인정보(이메일, 이름, 전화번호)가 있다면, 모델의 아웃풋에도 이런 정보가 반영될 가능성이 있음.
- OpenAI, Apple, Stanford, Berleley, Northeastern Univ에서 진행한 프로젝트는, NLP(자연어) 모델에서 트레이닝 데이터를 추출하는데 성공.
● 실험
- GPT-2 모델은 유명한 NLP 모델.
- 문장을 완성하는 식으로 테스팅을 해봄. ex) 나는 ___를 갖고 있다.
- 그러면 GPT-2 모델은 빈칸을 채우는데, 이때 자신이 내놓는 답을 모델이 얼마나 확신하는지에 따라 해당 문장이 모델 트레이닝 과정에서 활용되었는지 확인 가능.
- 1800개 중 트레이닝 과정에서 활용되었다고 확신할 수 있는 쿼리가 600개.
● 결론 및 시사점
- AI 모델만 대중에게 공개하는 경우, 활용된 데이터를 이런 방식으로 역추적할 수 있음.