머신러닝 '문제 정의' 단계에서 꼭 해야 할 일 5가지 🙆‍♀️

✔️ Do: 도메인 전문가와 자주 상의하세요 👩‍🏭 ML 개발에는 도메인 전문가의 참여가 필수적입니다. 예를 들어 2018년 MIT가 공유한 딥러닝 코스에는 기흉의 위치를 예측한 엑스레이 사진이 포함되어 있습니다. 이를 통해 엑스레이 판독이 ML의 영역이 될 수 있을 것으로 보였으나, 현직 의사들은 해당 사진에서 ML이 찾은 위치가 의학 지식에 어긋난다는 점과 오버피팅 가능성이 있다는 점을 지적했습니다. 이처럼 도메인 전문가는 문제 정의, 피처 엔지니어링, 모델 설계, 성능 평가와 디버깅 등에서 주요한 역할을 합니다. 또한 ML 모델 개발 이전에는 연관 자료, 즉 논문, 서적, 비즈니스 사례 등을 조사하는 사전 단계가 필요합니다. 아마존의 응용과학자인 유진 양(Eugene Yan)은 ML 프로젝트의 기준으로 자료 검토에는 2주, 프로토타이핑 개발에는 48주, 제품화에는 36개월이 소요된다고 제안합니다. ✔️ Do: 비즈니스 문제에 맞게 ML 문제를 구조화하고 전반적인 프로세스를 구상하세요 💰 비즈니스 문제는 여러 세부 과제와 단계가 복잡하게 엉켜 있는 경우가 많습니다. 이를 적절하게 구분하고 ML로 해결할 수 있는 것을 선별해야 합니다. 예를 들어 공급망 관리는 수주, 조달, 생산, 유통 단계로 이뤄지며 이 중 수주 단계에 ML 수요 예측을 적용해 공급망 최적화를 꾀할 수 있습니다. 애플리케이션의 경우 ML과 연계되는 정책 층가 필요할 수 있습니다. ML 작업 앞뒤로 필터링, 사전 및 사후 처리 단계가 종종 들어갑니다. 뉴스 피드 랭킹 모델을 만든다면 모델 성능을 높이더라도 선정적인 콘텐츠는 후보에서 미리 제외해야 합니다. 그 이유는 사용자 경험의 질적 하락과 평판 위험의 증가를 가져오기 때문입니다. ✔️ Do: 성과 측정 지표를 단순하고 관찰 및 개선 가능한 것으로 정하세요. 또는 직접 설계하고 구현하세요 📊 ML의 목표는 비즈니스 목표를 대변하며 측정이 쉬운 프록시여야 합니다. ML을 적용하기 전에는 ML의 성과 측정 지표와 비즈니스 목표가 서로 연결되어 있는지 확인해야 합니다. 예를 들어 이메일 타깃 마케팅에서는 사용자가 이메일을 열고 웹페이지 링크를 클릭하는 경우를 예측 정확도로 측정할 수 있습니다. 그러나 이것이 원하는 전환 행동으로 이어졌는지 간접적인 효과를 A/B 테스트 등을 통해 확인해야 합니다. 2016년 넷플릭스에서는 추천 썸네일을 본 후 선택한 비율인 채택률(Take Rate)이라는 지표를 만들었습니다. 채택률이 높아질수록 추천 시스템의 성능이 향상되어 전체 스트리밍 시간이 증가하고 구독 취소율이 감소함을 입증하였습니다. ✔️ Do: 보유 데이터에 존재하는 선택 편향에 유의하세요 📞 모든 때에 관측된 데이터로 예측 모델을 만드는 것이 최선이라는 보장은 없습니다. 마케팅 응답 모델링이 대표적인 사례입니다. 프로모션과 상관없이 구매하거나 반대로 하지 않는 고객이 있고 프로모션을 하는 때에만 구매하는 고객이 있습니다. 반면 프로모션에 반발해 구매 의사를 철회하는 고객이 있을 수도 있습니다. 이 경우 접촉한 고객 데이터만으로 구매 예측 모델링을 하면 선택 편향이 발생해 왜곡된 결과가 나올 수 있습니다. 대신 A/B 테스트를 통해 수집한 데이터로 프로모션을 제안할 때 구매할 확률과 제안하지 않아도 구매할 확률을 각각 모델링한 다음, 이들 확률 차이가 큰 고객에게 프로모션을 제안해야 합니다. 이를 업리프트 모델링*이라고 합니다. * Uplift Modeling. 마케팅 캠페인과 같은 직접적인 접근이 사람의 행동에 미치는 점진적인 영향을 예측하는 예측 모델링 기법. 이는 마케팅 및 전자상거래에서 특정 마케팅 캠페인에 반응할 가능성이 높은 고객을 예측하는 데 사용됩니다. 그러나 업리프트 모델은 단순히 어떤 고객이 구매할 가능성이 높은지 예측하는 것이 아니라, 특정 마케팅이 주어지는 경우에 한하여 어떤 고객이 구매할지 예측합니다. 업리프트 모델링은 상향 판매, 교차 판매, 그리고 잔존 등 고객 관계 관리에서 활용됩니다. ✔️ Do: ML 모델의 기술적인 제약사항, 법률과 회사 규정 준수 여부 등을 미리 점검하세요 📚 ML 모델링을 시작하기 전에 기술적인 제약사항을 미리 파악해야 합니다. 리소스가 제한된 IoT 디바이스나 웹 애플리케이션에서 추론 결과를 몇 밀리초 안에 제공해야 하는 경우, 모델 개발 초기부터 이러한 요구사항을 고려해야 합니다. 또한 법적 규제와 회사 정책을 준수하는 것도 초기 계획 단계에서 고려해야 합니다. 민감 정보나 이종 산업 간의 데이터를 결합하는 등의 불법적인 데이터 처리를 하면 서비스를 제공할 수 없을 뿐 아니라, 법적 문제가 발생할 수 있습니다. 그렇다면 머신러닝 '데이터 준비와 피처 엔지니어링' 단계에서 절대 하지 말아야 할 것은 무엇일까요? 이건 다음 편에서 다룰게요. 많관부! 💪 이 내용은 제가 공저한 책 '데이터 과학자 원칙'(https://goldenrabbit.co.kr/product/dsp/)에서 발췌한 것입니다.

머신러닝 '문제 정의' 단계에서 꼭 해야 할 일 5가지 🙆‍♀️

알림