인공지능에서 데이터가 별로라면 생길 수 있는 일들

지난 번 글에서 Data Cascade 라는 용어를 소개했는데요, 이 용어는 인공지능 개발 과정의 앞단인 데이터파트에서 생긴 문제가 간과될 시, 모델 개발이 진행될수록 더 커지고 복잡해진다는 의미로 사용되곤 합니다. 블로그 글에서는 Data Cascade의 두 가지 예시가 소개되는데요, 1️⃣ 노이즈가 없는 데이터셋에서 훈련된 모델이 종종 노이즈가 많은 실세계에 배포되는 경우 "In-the-wild" 데이터는 랩 안에서 만들어지는 데이터와는 차원이 다른 복잡성을 가지고 있을 때가 많습니다. 예를 들어 음식 사진을 분류하는 데이터셋을 만든다면, 깨끗하게 음식을 먹기 전 위에서 딱! 찍은 데이터를 열심히 만들 수 있겠죠. 마치 이 이모지들같은 사진들이 탄생할 수 있습니다. 🍳🥗🥘🍝🍜🍲 하지만 과연 현실 세계에서 이 모델이 사용될 때에도 사용자들이 그런 데이터를 Input 으로 만들까요? NO! 먹다가 '아 맞다' 하고 찍은 사진, 흔들린 사진, 친구 얼굴이 등장한 사진, 여러 개의 음식이 한번에 나온 사진, 음식 옆면이 나온 사진... 정말 수없이 많은 변형이 있을 수 있겠죠. 데이터가 노이즈없이 제작되었다면, 그 위에서 훈련된 모델 또한 "In-the-wild" 데이터의 노이즈를 감당할 수 없습니다. 2️⃣ 전문가의 검증이 필요한 데이터셋을 전문성이 없는 ML 개발자가 매니징하는 경우 CT사진을 분석해서 진단을 보조할 수 있는 모델을 만든다고 해봅시다. 이 의료 도메인에서 데이터를 만든다고 가정해보면, 우선 진단이 가능한 인간 (이 경우 의사) 가 열심히 데이터를 구축 할 것입니다. 하지만 이렇게 만들어진 데이터를 가공하고 처리하는 과정에서, 데이터를 폐기하거나 값을 수정하고, 병합하고, 혹은 데이터 수집을 다시 시작하는 등의 업무를 전문가 의견 없이 하는 경우들이 현업에서는 수없이 발생한다고 합니다. 이 경우도 Cascade 가 시작되는 지점이 될 수 있다고 해요. 🤯 왜 이런 일이 일어나나요? 위 블로그에서 소개하는 논문에 의하면, 데이터셋을 관리하는 담당자, ML 개발자, 그리고 기타 조직들 사이의 충돌과 문서화 부족으로 인해 생긴다고 합니다. 여러 팀 끼리의 조정을 필요로하는 작업인만큼, 작업의 흐름에 대한 인지가 일치하지 않는 경우 특히나 발생한다고 합니다. 참고한 글은 구글 리서치 블로그의 Data Cascades in Machine Learning 입니다. 👉 https://blog.research.google/2021/06/data-cascades-in-machine-learning.html 이 블로그에서 언급하는 논문의 제목은 다음과 같아요. 👉 "Everyone wants to do the model work, not the data work": Data Cascades in High-Stakes AI 다음 글에서는 Data Cascade 를 그럼 어떻게 해결할 수 있을지 이야기를 써볼게요!

Data Cascades in Machine Learning

Research

Data Cascades in Machine Learning

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 9월 18일 오전 3:25

댓글 1

함께 읽은 게시물

이직의 조건



... 더 보기

데이터를 알면 새로운 서비스 기획 아이디어를 얻을 수 있어요

안녕하세요. 무역 관련 공기업 빅데이터 팀에서 일하고 있는 DY입니다. 기획 및 데이터 분석 업무를 겸하고 있어요. 직원들을 위한 데이터 분석 환경을 마련하는 것부터 시작해서 사내에서 필요한 데이터 분석, 데이터 분석을 활용한 서비스를 만드는 일을 하고 있습니다. 첫 커리어는 웹 기획자로 시작했습니다. 4년 정도 기획자로 일을 하다가 데이터 분석가로 직무 전환을 하게 되었는데요. 기획 업무를 하다 보니까 커뮤니케이터, 조율의 역할을 많이 한다는 생각이 들더라구요. 그래서 나만의 전문성, 하드 스킬이 ... 더 보기

데이터 프로덕트를 만드는 기획자 겸 데이터 분석가가 일하는 법

datarian.io

데이터 프로덕트를 만드는 기획자 겸 데이터 분석가가 일하는 법

🤔 다양한 연차, 도메인의 데이터 분석가들은 어떻게 일하나요?

“제가 처음 데이터 분석가로 입사했을 때 회사 구성원들이 DAU, 결제액 같은 기본적인 지표 이외에 디테일 한 지표를 많이 살펴보지는 않았어요. 저는 동료들이 데이터와 친해지게 하기 위해 데이터 보고서를 보고 싶게 만들려고 노력했고요. 구성원들의 데이터 요청을 지원하는 데에 시간을 많이 썼습니다.” _ 전 큐피스트(글램) 프로덕트 총괄 / 데이터 분석가 이경진님 2023년 첫 번째 데이터 분석 세미나, 1월 월간 데이터리안 세미나에서는 다양한 연차의 다양한 도메인에서 일하고 있는 데이터 분석가들을 만... 더 보기

어제 출시된 따끈따끈한 ChatGPT Codex를 실제 프로젝트 레포에 써 보았습니다.


테스트가 있으면 스스로 테스트도 실행하고, 만든거 스스로 실행해보면서 버그도 수정하고 하는게 기특하긴 합니다.


... 더 보기

오늘은 투자 완료일이자 아미고 런칭 100일. 별 생각 없었는데, VC 파트너님이 축하한다며 파티 안하냐고 전화주셨길래 편의점에서 맥주 한 캔과 꼬깔콘으로 조촐하게 파티 했습니다. 이제부터가 진짜 시작이겠죠. 잘 부탁드립니다.

... 더 보기

조회 1,761


개발자의 장애 공유 문화

... 더 보기

개발자의 장애 공유 문화

K리그 프로그래머

개발자의 장애 공유 문화

 • 

저장 22 • 조회 4,007