Community

커리어리 친구들, 인공지능 현업에서 가장 힘드는 일들 중 하나를 뽑으라면 데이터 레이블링이죠? 데이터 레이블링도 사람이 직접 하는 경우도 있고, 인공지능이 자동화 시키는 솔루션을 가지고 하는 경우도

커리어리 친구들, 인공지능 현업에서 가장 힘드는 일들 중 하나를 뽑으라면 데이터 레이블링이죠? 데이터 레이블링도 사람이 직접 하는 경우도 있고, 인공지능이 자동화 시키는 솔루션을 가지고 하는 경우도 있습니다. 물론 둘다 장단점이 있습니다. 참고로 이미지넷 같은 경우에는 레이블 오류율이 5.8% 라고 합니다. 따라서 가장 큰 문제는 레이블 오류로 인하여 알고리즘 편향(bias)가 생기는 데, 데이터 전처리, 후처리, 작업 설계, 모델링 선택 등에서 그러한 문제가 발생하고 있습니다. 그러한 내용에 대해 모질라 재단의 뎁 라지가 지적했는데, 저도 동의합니다. 또 한가지 유명한 사례로 아마존 채용 도구에서 훈련 데이터의 편향으로 인해 유해한 모델이 발생했습니다. '여성 체스 클럽 주장'과 같이 '여성'이라는 단어가 포함된 이력서에 불이익을 주는 부분이 생겼다고 합니다. 따라서 인공지능 전문가들은 모델 투명성에 대한 우려가 증가하는 가운데 알고리즘 감사에 대한 요청을 하자는 아이디어를 내었고 감사는 알고리즘이 규제되는 방식과 배포에 안전한 알고리즘을 결정하는 데 중요한 역할을 하도록 했습니다. 그러나 감사 또한 장벽에 막혔는데, 딥 러닝 모델과 같은 고성능 모델은 설명하고 추론하기가 매우 어렵다는 것입니다. SHAP 및 LIME과 같은 모델 수준에서 이를 조사하는 몇 가지 방법이 있지만 이는 일부만 알려줍니다. 이러한 해결책으로 도메인에 따라서 Semi-supervised learning, Weak supervision, Transfer learning, Active learning, Synthetic data generation 등을 이용한 알고리즘과 학습 방법론의 장단점을 설명하고 있으니 꼭 읽어 보시기 바랍니다. 특히, 이 오리지널 영문 컬럼을 김대일님이라는 분께서 작성하셨습니다.

알림

알림이 없습니다