오늘 막 올라온 넷플 다큐 Coded Bias를 보고 끄적끄적해보았습니당. 개인적으로는 예전에 Responsible AI에 대해 발표했던 게 도움이 되었고 테크업계에서 이렇게 저렇게 배웠던 개념들을 같이 연결할 수 있었어요. 한 번 보시길 추천합니다.
2020년에 선댄스 영화제에 초연된 미국의 다큐멘터리 영화인데요. 연구 중 자신의 얼굴은 인식못하는데 하얀 가면을 쓰면 인식을 잘하는 것에 의문을 품다가 알고리즘의 편향을 발견하고 이에 대해 싸워온 조이 부올람위니 (흑인)연구원의 이야기로 시작합니다. 그녀는 알고리즈믹 저스티스 리그(Algorithmic Justice League)를 만들어서 AI가 가진 윤리문제를 본격적으로 다루고 있기도 해요.
다큐에서, 대량살상 수학무기의 저자 캐시오닐은 “알고리즘은 미래를 예측하기 위해 과거의 정보를 이용하는 것” 이기에 과거에 쌓아온 모든 데이터를 사용하게 되고 우리는 모든 과정에서 끊임없이 편향성이 있는지 감시해야(constantly monitor every process for bias.) 한다고 말합니다.
인터넷 공개 16시간만에 여성혐오주의자, 인종주의자가 되었던 마이크로소프트의 테이 AI 사례도 다룹니다. 이 외에도, 선생님의 고용과 해고에 쓰이는 수학모델평가도구, 범죄자를 가려내는 도시의 얼굴인식장치, 판결에 사용하는 새 위험평가 도구, 중국의 감시 시스템 등 완벽하지 않은 알고리즘이 상용화되어 인간의 삶을 위협하고 왜곡하는 사례들을 잔뜩 소개해줍니다.
또, 각자가 스마트폰을 소유하는 사회가 되면서 데이터 양이 폭발적으로 증가, 비지도학습이 보편화된 배경을 곁들이며, 이런 기계학습 알고리즘에 데이터를 주입하는 게 잘 작동하는 것처럼 보였으나 실은 그걸 만드는 사람들 조차도 어떤 에러가 있는지 알기 어려운 블랙박스라는 것이 지금의 문제라고 지적합니다.
다소 큰 개념이지만, X-AI라고 하는 설명가능한 AI 이야기가 중요한 이유도 여기에 있는 것 같습니다. (참고 : 왜 X-Ai가 필요한지에 대한 Techtonic 2020 강의 http://bit.ly/OVSDSXai )
얼마전 Andrew Ng교수는 Data-centric이라는 개념을 다시금 강조하며, 이런 문제를 해결하는 것은 모델을 수정하는 것보다는 데이터를 개선하는 것이 더 결과가 좋았다고 말했죠.
핵심은 학습용 데이터셋, 특히 검증에 사용되는 테스트셋의 품질을 높이는 데 있는 것 같고 그걸 가능하게 해주는 게 MLOps를 표방하는 플랫폼들의 핵심 메시지이죠. 처음부터 완벽한 데이터는 없으니, 수집,라벨링하고 전처리 작업을 모두 할 수 있는 하나의 데이터 파이프라인에서 소통하고 작업할 수 있도록 효율화해서 Iteration을 두렵지 않게 하자는 것.
GitHub의 코드 버전관리 처럼 데이터를 버전관리하고 구글닥스에서 하는 공동 글쓰기처럼 라벨링을 한다는 개념이 왜 중요한지를 학습용 데이터셋의 품질을 끌어올리는 5가지 관리 포인트라는 이 글(http://bit.ly/OVdataset)을 읽고 이해가 갔습니다.
Spark+AI summit에서 테슬라의 Andrej가 자동와이퍼기능을 구현하는 이야기를 소개하는 영상(http://bit.ly/OVTesla)에서도 Iterative process 에 대해 잠깐 다뤘었죠. 한 번에 끝날 일이 아니라고요.
AI 윤리 문제는 엄청 무겁고 큰 맥락에서 다루어져야 할 이야기지만, 아주 현실적으로는 이런 데이터의 품질을 높이고 데이터 파이프라인을 관리하는 노력부터 해봄직하지 않을까 하는 생각에 글 공유해봅니다. 호옥시 AI Ethic에 더 관심이 있는 분들은 Fast-ai-kr 커뮤니티에서 만든 요 레파지토리(http://bit.ly/OVEthics)를 한 번 보시면 좋을 것 같아요