AI/ML 학습용 데이터, 어느 정도가 충분한 것일까

인공지능(AI)의 한계이자 미래는 결국 사람이다. 사람 같은 로봇의 등장을 기대하든 우려하든 상관없이 결국 이 문제가 사람에 달렸다는 사실은 변한 적이 없다. AI 그리고 데이터 과학에서 가장 이상적인 해법은 사람과 기계의 장점을 합치는 것이다. 한동안 AI 업계의 지지자들은 이 방정식의 기계 쪽에 집중하는 경향을 보였다. 하지만 스프링 헬스(Spring Health)의 데이터 과학자 엘레나 다이아크코바에 따르면, 데이터와 그 이면에 있는 기계는 사람이 유용하다고 '이해하는 만큼만' 쓸모가 있다. 이 주제를 더 진전시켜 보자. > 불완전한 데이터와 합리적인 의사결정 2016년 우버에 인수된 머신러닝 전문 기업 지오메트릭 인텔리전스(Geometric Intelligence)의 설립자 게리 마커스는 AI와 머신러닝, 딥러닝을 평가하는 핵심 요소는 패턴 인식 툴이 대략의 결과가 필요한 순간에 제대로 잘 작동하는지 여부라고 말했다. 비용이 적게 들고 완벽한 결과를 내는 것은 성공을 판단하는 핵심 요소가 아니라는 것이다. 이런 지적에도, 더 강력한 AI 애플리케이션을 만들기 위해 우리는 점점 더 많은 데이터를 확보하는 데 매진하고 있다. 충분한 데이터를 제공하면 머신러닝 모델이 '대략의 결과'보다 더 좋은 성과를 낼 것이라고 기대하는 것이다. 그러나 안타깝게도, 현실은 이렇게 단순하지 않다. 많은 애플리케이션에서 더 많은 데이터가 도움이 될 수는 있겠지만 실제로는 더 많은 데이터가 필요치 않다. 대신 이미 우리가 가진 데이터를 더 잘 이해할 수 있는 사람이 훨씬 더 도움이 된다. 이에 대해 다이아크코바는 "제품 분석의 80%는 다소 허술해도 빠르게 진행한다. 하지만 이런 분석을 언제 할 것인가 판단하는 능력은 통계에 대한 매우 깊은 이해를 필요로 한다"라고 말했다. 인디드닷컴(Indeed.com)의 데이터 과학자 빈센트 다울링은 이를 더 명확하게 이야기했다. 그는 "노련한 분석가/과학자를 보유했을 때 가장 큰 장점은 의사결정에 필요한 데이터의 정확성을 결정할 수 있다는 점이다"라고 말했다. 이들이 공통으로 이야기하는 것이 바로 의사결정의 방법에 대한 것이다. 그리고 두 사례 모두 데이터를 들여다본 실무자의 경험이 데이터 자체보다 더 중요하다는 사실을 잘 보여준다. 기계는 절대로 인간이 하는 것과 같은 비효율적인 경험을 흉내 낼 수 없다. 가디언이 기사를 통해 지적한 것처럼, AI를 이용하면 기계가 데이터 속 패턴을 찾아내 사람보다 더 빠르게 의사결정할 수 있을 것으로 기대한다. 그러나 더 나쁜 결정을 더 빠르게 한다면 어떻게 될까? 인간이 데이터에 대해 사고하는 오너십을 포기하면 실제로 이런 일이 발생할 가능성이 높다. 결과적으로 기계는 자신을 위한 결정을 내리게 될 것이다. > 더 적은 데이터, 더 많은 지식 하지만 현실 프로젝트에서 이런 작업에 더 많은 사람을 투입하는 것은 오히려 빼는 것보다 어렵다. 가트너 리서치 부사장 매쥬냇 배트에 따르면, AI는 인간이 기계를 학습시키기 위해 선택한 데이터에 영향을 받는다. 연쇄적으로 이 알고리즘 결과는 우리가 의사결정하는 데이터에 영향을 준다. 그는 "사람들은 데이터 형태로 현실을 소비하지만, 데이터는 변화, 변환할 수 있고 소비하기 편리한 형태로 이름을 붙일 수 있다. 결국 인간은 세계의 매우 조작된 시선, 제한된 범위 내에서 살아갈 수밖에 없다"라고 말했다. 아마존의 과학자 유진 얀은 "성공적인 머신러닝 프로젝트를 위해서는 데이터가 필요하다. 데이터 흐름을 지원할 수 있는 더 강력한 파이프라인도 있어야 한다. 그러나 무엇보다 중요한 것은 각 데이터에 정확하게 붙인 이름 즉 라벨이 필요하다"라고 말했다. 하지만 숙련된 사람 없이는 적절하게 라벨을 붙인 데이터를 확보하는 것은 불가능하다. 라벨을 붙이기 위해서라도 데이터를 이해해야 하는 것이다. 십여 년 전 가트너 애널리스트 스블라나 시컬의 지적에 다시 주목해야 하는 것도 바로 이 지점이다. 그는 "기업에는 사업 내용의 행간까지 읽을 수 있는 직원이 많다. 이들 직원은 기업 데이터에 요구할 수 있는 적절한 문제를 찾는 데 최적화돼 있다"라고 말했다. 당시에 부족한 것이 있었다면 다이아크코바가 지적한 것처럼 통계에 대한 이해일 것이다. 즉 충분히 의미 있는 결과를 내기 위해 '어느 정도면 충분한지' 판단하는 능력이다. 데이터 과학이 어려운 것도 바로 이 때문이다. AI/ML 도입의 어려움을 묻는 모든 설문조사에서, '인재'가 항상 1위인 것도 같은 맥락이다. 단순히 데이터 과학자의 부족이라고 쉽게 정리할 수도 있지만, 지금 우리가 가장 걱정해야 할 것은 그게 아닐 수 있다. 바로 통계와 수학 그리고 기업의 사업 내용에 대한 기본적인 이해의 부족이다.

AI/ML 학습용 데이터, 어느 정도가 충분한 것일까

알림