Type III: The Costliest Error | Kaskada
Kaskada
잘못된 문제 정의를 해놓고 답을 찾는 오류를 통계학에서는 Type III Error라고 합니다. Type I Error(false positive)와 Type II Error(false negative)처럼 Type III Error는 데이터 사이언스에서 많은 시간과 노력을 낭비하게 합니다. (의사가 오진을 해 놓고 완벽한 수술로 엉뚱한 장기를 적출하는 끔찍한 상황을 생각해 봅시다.) 보통 이런 문제가 발생하는 것은 다음 두 가지 상황에서 기인합니다. - 비즈니스 관리자 또는 데이터 사이언스 관리자가 문제를 정의합니다. - 비즈니스적인 맥락과 동떨어져있는 데이터 사이언티스트가 문제를 정의합니다. 데이터 사이언스의 특정 문제는 특정한 데이터와 특정한 컨텍스트에 적용되는 경우가 많으며, 이런 이해 없는 올바른 해답을 도출할 수 없습니다. 관리자가 올바른 문제를 정의하기 어려운 이유입니다. 또한 데이터 사이언티스트는 모델의 최종 사용자를 이해하고 공감해야 하며, 그렇지 않다면 엉뚱한 사람의 문제를 해결하는 시도가 되기 쉽상입니다. 문제를 바르게 해결하는 방법은 의외로 단순합니다. 첫째, 솔루션이 단순히 탑다운이 아니라 비즈니스 파트너와의 대화 및 데이터를 관찰한 결과에서 나오는지 확인할 필요가 있습니다. 문제가 경영진이나 VP, C레벨에서 정의되어 나온다면 아마도 잘못되어 있을 가능성이 있습니다. 둘째, 모델의 최종 사용자와 관계를 구축하고 그들에게 공감할 필요가 있습니다. 그들에게 가장 중요한 정보가 무엇이며 우리가 제공하는 정보를 어떻게 쓸 것인지 확인하는 작업을 자주 수행할 필요가 있습니다. 원문에 나온 재미있는 예시를 소개하며 마칩니다. --- 데이팅 앱은 나와 어울리는 상대를 추천해 줍니다. 어떤 알고리즘으로 1000명의 상대를 추천 받았고, 그 중 한 명과의 데이트 장소에 나갔습니다. 그(또는 그녀)가 질문합니다. "Am I the only one for you?" 재빠르게 이렇게 대답합니다. "No! You're one out of 1000..." 그(또는 그녀)는 내가 가진 추천 상대의 숫자가 궁금한 게 아닙니다. 사실 질문의 의도는 단순합니다. "Do you love me?"
2020년 12월 2일 오전 10:48