< AI 모델의 새로운 리스크. 트레이닝 데이터 역추적 > ● 배경 - 자연어 처리 모델에 투입되는 트레이닝 데이터에 개인정보(이메일, 이름, 전화번호)가 있다면, 모델의 아웃풋에도 이런 정보가 반영될 가능성이 있음. - OpenAI, Apple, Stanford, Berleley, Northeastern Univ에서 진행한 프로젝트는, NLP(자연어) 모델에서 트레이닝 데이터를 추출하는데 성공. ● 실험 - GPT-2 모델은 유명한 NLP 모델. - 문장을 완성하는 식으로 테스팅을 해봄. ex) 나는 ___를 갖고 있다. - 그러면 GPT-2 모델은 빈칸을 채우는데, 이때 자신이 내놓는 답을 모델이 얼마나 확신하는지에 따라 해당 문장이 모델 트레이닝 과정에서 활용되었는지 확인 가능. - 1800개 중 트레이닝 과정에서 활용되었다고 확신할 수 있는 쿼리가 600개. ● 결론 및 시사점 - AI 모델만 대중에게 공개하는 경우, 활용된 데이터를 이런 방식으로 역추적할 수 있음.

Privacy Considerations in Large Language Models

Googleblog

Privacy Considerations in Large Language Models

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2021년 1월 12일 오전 3:07

댓글 0

    함께 읽은 게시물

    < '모든 것을 받아들이기'의 진짜 의미 >

    1. 아무것도 기대하지 않으면 현재를 살게 된다.

    ... 더 보기

    이번 구글 I/O, 구글 여러분들 행사전에 입이 근질근질하셨겠네요. ㅎㅎ


    내용은 다들 소개하셨으니 한줄평하자면, 구글이 처음으로 OpenAI에 비해 반발짝정도 앞서나간 이벤트인 것 같습니다.


    더불어 출시한 모델과 서비스들을 보니.. 역시 AI는 돈빨이며 구글이 돈빨을 제대로 세웠.. 쿨럭..


    오늘은 투자 완료일이자 아미고 런칭 100일. 별 생각 없었는데, VC 파트너님이 축하한다며 파티 안하냐고 전화주셨길래 편의점에서 맥주 한 캔과 꼬깔콘으로 조촐하게 파티 했습니다. 이제부터가 진짜 시작이겠죠. 잘 부탁드립니다.

    ... 더 보기

    조회 1,919


    < 왜 사람들은 과거를 계속 반복할까? >

    1. 미래는 대개 과거를 되풀이하게 마련입니다. 피상적인 변화는 가능하지만, 진정한 변화는 드뭅니다.

    ... 더 보기

     • 

    댓글 1 • 저장 5 • 조회 996


    🔦'네이버다움', 이렇게 찾았다고 합니다

    ... 더 보기

    NAVERfficial - "네이버다운 게 뭔데?" 물으신다면

    fficial.naver.com

    NAVERfficial - "네이버다운 게 뭔데?" 물으신다면

    간만에 공개 발표를.. 이번 주 토요일,

    ... 더 보기

    Build with AI 2025 Seoul - 이벤터스

    event-us.kr

    Build with AI 2025 Seoul - 이벤터스

    조회 1,093