인공지능에서 데이터가 별로라면 생길 수 있는 일들

지난 번 글에서 Data Cascade 라는 용어를 소개했는데요, 이 용어는 인공지능 개발 과정의 앞단인 데이터파트에서 생긴 문제가 간과될 시, 모델 개발이 진행될수록 더 커지고 복잡해진다는 의미로 사용되곤 합니다. 블로그 글에서는 Data Cascade의 두 가지 예시가 소개되는데요, 1️⃣ 노이즈가 없는 데이터셋에서 훈련된 모델이 종종 노이즈가 많은 실세계에 배포되는 경우 "In-the-wild" 데이터는 랩 안에서 만들어지는 데이터와는 차원이 다른 복잡성을 가지고 있을 때가 많습니다. 예를 들어 음식 사진을 분류하는 데이터셋을 만든다면, 깨끗하게 음식을 먹기 전 위에서 딱! 찍은 데이터를 열심히 만들 수 있겠죠. 마치 이 이모지들같은 사진들이 탄생할 수 있습니다. 🍳🥗🥘🍝🍜🍲 하지만 과연 현실 세계에서 이 모델이 사용될 때에도 사용자들이 그런 데이터를 Input 으로 만들까요? NO! 먹다가 '아 맞다' 하고 찍은 사진, 흔들린 사진, 친구 얼굴이 등장한 사진, 여러 개의 음식이 한번에 나온 사진, 음식 옆면이 나온 사진... 정말 수없이 많은 변형이 있을 수 있겠죠. 데이터가 노이즈없이 제작되었다면, 그 위에서 훈련된 모델 또한 "In-the-wild" 데이터의 노이즈를 감당할 수 없습니다. 2️⃣ 전문가의 검증이 필요한 데이터셋을 전문성이 없는 ML 개발자가 매니징하는 경우 CT사진을 분석해서 진단을 보조할 수 있는 모델을 만든다고 해봅시다. 이 의료 도메인에서 데이터를 만든다고 가정해보면, 우선 진단이 가능한 인간 (이 경우 의사) 가 열심히 데이터를 구축 할 것입니다. 하지만 이렇게 만들어진 데이터를 가공하고 처리하는 과정에서, 데이터를 폐기하거나 값을 수정하고, 병합하고, 혹은 데이터 수집을 다시 시작하는 등의 업무를 전문가 의견 없이 하는 경우들이 현업에서는 수없이 발생한다고 합니다. 이 경우도 Cascade 가 시작되는 지점이 될 수 있다고 해요. 🤯 왜 이런 일이 일어나나요? 위 블로그에서 소개하는 논문에 의하면, 데이터셋을 관리하는 담당자, ML 개발자, 그리고 기타 조직들 사이의 충돌과 문서화 부족으로 인해 생긴다고 합니다. 여러 팀 끼리의 조정을 필요로하는 작업인만큼, 작업의 흐름에 대한 인지가 일치하지 않는 경우 특히나 발생한다고 합니다. 참고한 글은 구글 리서치 블로그의 Data Cascades in Machine Learning 입니다. 👉 https://blog.research.google/2021/06/data-cascades-in-machine-learning.html 이 블로그에서 언급하는 논문의 제목은 다음과 같아요. 👉 "Everyone wants to do the model work, not the data work": Data Cascades in High-Stakes AI 다음 글에서는 Data Cascade 를 그럼 어떻게 해결할 수 있을지 이야기를 써볼게요!

Data Cascades in Machine Learning

Research

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 9월 18일 오전 3:25

저장 5 • 조회 384

문종혁
HITS 채용 담당자 • 2023년 09월 19일
흥미롭게 읽었습니다. :)

비슷한 게시물

주간 인기 TOP 10

골빈해커 Chief Maker

요 며칠 GPT-5 Reasoning - High 를 사용해서 진

K리그 프로그래머 커피한잔 개발자

내가 가본 우리나라

석민 커리어 코치

확신은 어디에서 오는가?

김선호 여기어때컴퍼니 / User Behavior Team Lead

매우 공감하는 글. 좀 더 첨언해보자면, - 문제가 뭔지 정의하

장홍석 스페이스오디티 부대표/CPO

< 모른다고 말하는 순간, 뇌도 멈춘다 >

Arawn Park Senior Engineer & Engineering Lead

JSpecify로 끝내는 NPE 전쟁

마케터 초인(윤진호) 초인 마케팅랩 LEADER

타인의 평가자가 되어 삶을 허비하지 않기로 하였다

달레 Apollo GraphQL Software Engineer

재미있는 함수에 대해 배워볼까요! 😄

김현청 | Hyuncheong KIM 블루에이지 회장 | 서울리더스클럽회장 | (사)도서관산업협회 회장

일과 사랑, 그리고 인생을 위한 명언 1697개

서지연 개발자

📰 개발자로서 읽어야 할 책 8권 ✍️ dev.to에 올라온

인공지능에서 데이터가 별로라면 생길 수 있는 일들

댓글 1

비슷한 게시물

주간 인기 TOP 10

추천 프로필