인공지능에서 데이터가 별로라면 생길 수 있는 일들

지난 번 글에서 Data Cascade 라는 용어를 소개했는데요, 이 용어는 인공지능 개발 과정의 앞단인 데이터파트에서 생긴 문제가 간과될 시, 모델 개발이 진행될수록 더 커지고 복잡해진다는 의미로 사용되곤 합니다. 블로그 글에서는 Data Cascade의 두 가지 예시가 소개되는데요, 1️⃣ 노이즈가 없는 데이터셋에서 훈련된 모델이 종종 노이즈가 많은 실세계에 배포되는 경우 "In-the-wild" 데이터는 랩 안에서 만들어지는 데이터와는 차원이 다른 복잡성을 가지고 있을 때가 많습니다. 예를 들어 음식 사진을 분류하는 데이터셋을 만든다면, 깨끗하게 음식을 먹기 전 위에서 딱! 찍은 데이터를 열심히 만들 수 있겠죠. 마치 이 이모지들같은 사진들이 탄생할 수 있습니다. 🍳🥗🥘🍝🍜🍲 하지만 과연 현실 세계에서 이 모델이 사용될 때에도 사용자들이 그런 데이터를 Input 으로 만들까요? NO! 먹다가 '아 맞다' 하고 찍은 사진, 흔들린 사진, 친구 얼굴이 등장한 사진, 여러 개의 음식이 한번에 나온 사진, 음식 옆면이 나온 사진... 정말 수없이 많은 변형이 있을 수 있겠죠. 데이터가 노이즈없이 제작되었다면, 그 위에서 훈련된 모델 또한 "In-the-wild" 데이터의 노이즈를 감당할 수 없습니다. 2️⃣ 전문가의 검증이 필요한 데이터셋을 전문성이 없는 ML 개발자가 매니징하는 경우 CT사진을 분석해서 진단을 보조할 수 있는 모델을 만든다고 해봅시다. 이 의료 도메인에서 데이터를 만든다고 가정해보면, 우선 진단이 가능한 인간 (이 경우 의사) 가 열심히 데이터를 구축 할 것입니다. 하지만 이렇게 만들어진 데이터를 가공하고 처리하는 과정에서, 데이터를 폐기하거나 값을 수정하고, 병합하고, 혹은 데이터 수집을 다시 시작하는 등의 업무를 전문가 의견 없이 하는 경우들이 현업에서는 수없이 발생한다고 합니다. 이 경우도 Cascade 가 시작되는 지점이 될 수 있다고 해요. 🤯 왜 이런 일이 일어나나요? 위 블로그에서 소개하는 논문에 의하면, 데이터셋을 관리하는 담당자, ML 개발자, 그리고 기타 조직들 사이의 충돌과 문서화 부족으로 인해 생긴다고 합니다. 여러 팀 끼리의 조정을 필요로하는 작업인만큼, 작업의 흐름에 대한 인지가 일치하지 않는 경우 특히나 발생한다고 합니다. 참고한 글은 구글 리서치 블로그의 Data Cascades in Machine Learning 입니다. 👉 https://blog.research.google/2021/06/data-cascades-in-machine-learning.html 이 블로그에서 언급하는 논문의 제목은 다음과 같아요. 👉 "Everyone wants to do the model work, not the data work": Data Cascades in High-Stakes AI 다음 글에서는 Data Cascade 를 그럼 어떻게 해결할 수 있을지 이야기를 써볼게요!

Data Cascades in Machine Learning

Research

Data Cascades in Machine Learning

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 9월 18일 오전 3:25

댓글 1