[연합 학습: 온-디바이스 데이터와 개인 정보 보호를 지키며 더 나은 제품 만들기 📱]
개인 정보 보호에 대한 우려와 데이터 주권 의식이 커지면서 기업의 고객 데이터 입수 및 활용에 정부와 시민 단체들이 촉각을 곤두세우게 됩니다. 그래서 우리의 큰 형님들, 글로벌 테크 기업은 각종 꼼수... 아니 대안을 생각하게 되죠. 😔 구글이 작년 8월 발표한 연합 학습(Federated Learning)은 이런 대안의 한 갈래입니다.
연합 학습의 이해를 위해 구글 키보드(GBoard)를 예로 들어보죠. 키보드에서 다음 입력할 단어를 예측, 제시하기 위해 GBoard는 사용자가 스마트폰에서 입력한, 방대한 텍스트 데이터를 서버로 전송, 적재하지 않습니다. 다행입니다, 구글 엔지니어가 그걸 본다니... 생각만 해도 수치플이거든요. 😔 대신 스마트폰 내부에서 개인용 소형 모델을 학습하고 그걸 서버로 가져와서 전 고객의 것을 연합하여 최종 모델을 완성합니다. 즉 서버로 전달되는 건 모델이지, 데이터가 아닌 셈이죠. 최종 모델은 개별 스마트폰에 재전송되어 GBoard 예측 서비스에 이용됩니다. 아니, 잠깐. 모델은 개인 민감 정보 아니냐고요? 그럴 리가요. 그건 그냥 0과 1로 이뤄진 직렬화 객체인걸요. 그래도 혹시 몰라 개별적으로 알아보기 어렵게, 전송할 때 노이즈를 추가했습니다. 개인 데이터에 과적합되지 않게 모델 학습의 한계 폭도 지정해줬다고욧! 😔
최근 개정된 데이터 3 법에 의하면 가명 처리한 정보는 개인 동의 없이 기업에서 특정 목적을 위해 사용할 수 있습니다. 온-디바이스 데이터로 학습한 모델 그 자체는 가명 정보일까요? 아니, 애당초 식별이 더욱 불가한 익명 정보일까요? 글쎄요, 정답은 없습니다. 법리 해석의 상당 부분은 사회 구성원의 이해와 공감대를 근거로 이루어지거든요. 이제 구글 AI에서 연합 학습 설명을 위해 왜 카툰까지 제작했는지 눈치채셨나요? (ㅇㅇ 양덕이어서... 😔) 근데 우리 이웃나라는 이런 노력 딱히 없이 개인 데이터를 벌크로 수집하던데...