1️⃣ Data-Centric AI 가 뭘까요?
크게 코드와 데이터, 두 가지로 나누어 생각해볼 수 있는 인공지능. 여기서 데이터 중심으로 AI에 접근한다는 것을 모델링, 즉 코드 수정을 통해 성능을 개선하는 접근이 아닙니다. 즉, Hold the code, fix the data 의 관점인거죠. 데이터의 품질을 향상시키면, 향상시켜야지만, 우리가 해결하고 싶은 문제를 풀 수 있다!는 관점이죠. 이제까지는 모델을 개발해내는 그 자체에 조금 더 집중했었지만, 이제는 데이터도 그만큼이나 중요하다는 이야기입니다.
2️⃣ 데이터를 대충 그냥 구해서 모델링으로 해결해본다면, 어떤 문제가 발생할 수 있을까요?
2021 ACM CHI Conference 에서 구글이 발표한 논문 (https://research.google/pubs/pub49953/) 에서는 초창기 데이터 이슈를 간과하고 프로젝트를 진행할 시 생길 수 있는 기술적 부채에 대해 다루고 있습니다. 데이터를 촘촘하게 기획하고 수집하고 구축하지 않으면 Data Cascade 현상으로 인해 개발 프로세스가 많이 진행된 시점에서 시스템 레벨의 변화를 (주로 비싸고 힘들겠죠) 해야 할수도 있다고 이야기합니다.
3️⃣ Data Cascade 라는 말은 무슨 뜻인가요?
기네스 맥주를 아주 적절하고 멋지게 따르면, 거품이 벽면을 타고 내려서 바닥에 쌓이고 진해지는 현상을 볼 수 있는데요, 이를 캐스케이드 현상이라고도 부릅니다. Cascade 는 짧고 가파른 폭포라는 뜻이라고 하네요. 주로 머신러닝의 라이프사이클 초창기에 이뤄지는 데이터 관련 작은 이슈가 (방금 생각난 예시 : 도메인 전문가가 필요한 데이터 구축 업무에 실수로 일반인이 투입되어 데이터 신뢰도가 떨어질 때) 모델 개발이 진행될수록 더 커지고 복잡해진다는 의미로 Data Cascade 현상이라는 말을 사용합니다.
더 자세히 읽어보고 싶은 분들은 구글 리서치의 이 블로그를 참고해주세요!
👉 Data Cascades in Machine Learning
https://ai.googleblog.com/2021/06/data-cascades-in-machine-learning.html