[ 보이지도 않고 소유하지도 않은 데이터 분석하기 ] 익명화는 데이터를 활용하여 다양한 사회적 문제를 해결하기 위한 필수 조건 ● 데이터를 다루다 보면 다양한 상황을 마주하게 된다 - 데이터를
[ 보이지도 않고 소유하지도 않은 데이터 분석하기 ] 익명화는 데이터를 활용하여 다양한 사회적 문제를 해결하기 위한 필수 조건 ● 데이터를 다루다 보면 다양한 상황을 마주하게 된다 - 데이터를 공유하고 싶은데 데이터 값 자체를 주고 싶지 않다 - 익명처리하고 싶은데 그렇게 하면 데이터의 특징이 날아갈까 봐 걱정된다 ● Gretel-synthetics - Gretel은 데이터의 특성은 그대로 보유하지만, 데이터 하나하나를 들여다보면 다 다른 데이터, 즉 익명화된 데이터를 생성한다 - 데이터의 '특징'을 파악하는 모델을 만든다 -> 해당 모델이 데이터의 '특징'을 반영하는 데이터를 생성해 낸다 - 여기서 Gretel은 데이터의 sub-category 별 데이터를 생성할 수 있다 (키 170 이하와 관련된 데이터만 생성해줘) - 즉, 데이터가 모델에 들어가기 전에 이미 익명화 된다 - 다르게 활용될 수도 있는데; 사기 탐지 데이터(신용카드 사기 비율 5%)와 같이 데이터가 편향된 상황에서 데이터 생성을 통해 '밸런스'를 맞출 수도 있다 링크: https://gretel.ai/ ● 하지만 가끔은 익명성이 다가 아니다 - 상품의 pricing과 같이 코어 비즈니스와 직결되는 데이터와 같은 경우는 데이터 값 자체가 중요하기도 하지만, 결국 그 데이터를 통해 얻는 인사이트가 중요하다 ● 데이터를 모델로부터 보호하는 방법은 크게 두 가지 ○ Differential Privacy - 데이터의 특징은 그대로 유지하지만 데이터 값 하나 하나를 보면 다 실제 값들이 아니며 익명화 되어있다 ○ Federated Learning - 모델에 들어가는 데이터가 소스가 한 곳이 아니라 분산되어 있다. 그리고 각 분산된 환경에서 모델이 훈련되고 그 모델들이 한 곳으로 모여 최종 모델이 된다. 전체 데이터를 한 번에 볼 수 없는 것이다. ● 이 두 가지를 활용한게 PySyft - 랜덤 노이즈를 넣어서 데이터를 익명화 한다 - 그리고 익명화된 데이터를 다른 사람에게 공유할 수 있는 기능을 추가하여 agent 사이에서 데이터 접근 제어가 가능하도록 함 ● 가장 이상적인 활용 방안 - 여러 기관들로부터 데이터를 중앙으로 수집하여 특정 이벤트를 예측하거나, 사회적 이슈 등을 분석하고 해결하는데 이용할 수도 있다 - 예를 들어 각 금융 기관으로로부터 데이터를 수집하여 하나의 모델을 만들고 싶을 때, 각 기관들에게 데이터 접근 권한을 요청한다 -> 금융 기관들이 승인을 해주면 데이터가 암호화 되고, 데이터를 요청한 사람들은 분리된 환경에서 해당 데이터를 갖고 모델을 훈련할 수 있다 -> 그리고 훈련된 모델을 중앙으로 모을 수 있다 💡 익명화는 회사 간에 데이터를 안전하게 주고받을 수 있도록 한다. 하나의 공통된 목적을 이루기 위해 다양한 기관들의 노력과 데이터가 필요로 하는 경우도 있다. PySyft는 이런 목적에 활용되기 위해 개발된 패키지. 우리나라 마이데이터 산업의 지향점과 비슷.