'데이터댐'에서 품질 좋은 데이터 콸콸 쏟아지게 하려면...
Naver
정부는 5년간 18.1조원을 데이터 댐 구축에 투자한다. 어마어마한 액수다. 당연한 얘기지만, 단순히 데이터 크기 보다 품질이 중요하다. 그럼 어떻게 품질 좋은 데이터를 모을 수 있나? 아이러니하게도, 좋은 데이터를 모으려면 좋은 서비스(비즈니스)가 선행돼야 한다. 그런데 당연하지만 좋은 AI기반 서비스를 만드려면 좋은 데이터를 모아서 학습해야 한다... 사실 데이터와 서비스의 관계는 단순하게 일방적인 순서가 아니고, 사이클이다. 비교적 품질이 떨어지는 데이터로 초기 서비스를 만든다. 초기 서비스를 통해 실제 사용자의 니즈가 반영된 데이터가 추가적으로 인입되면 더 품질 좋은 학습 데이터 구축이 가능하다. 따라서 데이터-서비스 선순환 구조를 도달 하는 것이 가장 중요하다. 그리고 이런 데이터는 단순히 돈을 부어 넣는다고 구할 수 있는 데이터가 아니기 때문에, 정말 가치가 높다. 이번 데이터 사업은 초기 서비스를 런칭하도록 도와주는 데이터 구축에 집중돼 있는 것으로 보인다. 하지만 정말 질 좋은 공공 데이터 구축을 위해서는, 해당 데이터를 활용한 서비스들이 선순환을 이룰 수 있도록 협조하고, 이런 순환을 통해 높아진 품질의 데이터를 공개하도록 하는 것이 필요하다고 생각한다.
2020년 8월 21일 오후 6:06