Privacy Considerations in Large Language Models
Google AI Blog
< AI 모델의 새로운 리스크. 트레이닝 데이터 역추적 > ● 배경 - 자연어 처리 모델에 투입되는 트레이닝 데이터에 개인정보(이메일, 이름, 전화번호)가 있다면, 모델의 아웃풋에도 이런 정보가 반영될 가능성이 있음. - OpenAI, Apple, Stanford, Berleley, Northeastern Univ에서 진행한 프로젝트는, NLP(자연어) 모델에서 트레이닝 데이터를 추출하는데 성공. ● 실험 - GPT-2 모델은 유명한 NLP 모델. - 문장을 완성하는 식으로 테스팅을 해봄. ex) 나는 ___를 갖고 있다. - 그러면 GPT-2 모델은 빈칸을 채우는데, 이때 자신이 내놓는 답을 모델이 얼마나 확신하는지에 따라 해당 문장이 모델 트레이닝 과정에서 활용되었는지 확인 가능. - 1800개 중 트레이닝 과정에서 활용되었다고 확신할 수 있는 쿼리가 600개. ● 결론 및 시사점 - AI 모델만 대중에게 공개하는 경우, 활용된 데이터를 이런 방식으로 역추적할 수 있음.
2021년 1월 12일 오전 3:07