머신러닝 '문제 정의' 단계에서 절대 하지 말아야 할 일 3가지 🙅‍♀

ML에서 문제 정의는 중요성이 과소평가되며, 적은 작업 시간이 투입되는 단계입니다. 그러나 첫 단추를 잘못 꿰면 이후 단계는 모조리 잘못될 수 있습니다. 따라서 도메인을 이해하고 해결하려는 문제를 정의하는 데 많은 시간을 투자해야 합니다. 때로는 ML로 해결할 필요가 없다는 결론이 나올 수도 있습니다. 사용자 유입이 목표라면 추천 알고리즘보다는 훌륭한 사용자 경험을 제공해 이를 달성할 수도 있습니다. 또한 때에 따라서는 문제를 변형해 ML이 풀 수 있는 문제를 명확하게 만들기도 합니다. 예를 들어 민원을 사전 예측하는 모델을 만들 때 정확도로는 성능이 좋지 않다면, 이미 발생한 민원의 영향을 최소화하는 ML 모델을 만들어 성과를 거두기도 합니다. ✔️ Don’t: ML을 사용할 수 없는 때에 ML을 사용하지 마세요 🎯 ML은 복잡한 학습 패턴이 존재하고 충분한 데이터를 사용 또는 수집 가능하며, 대규모 예측이 필요하고 잘못된 예측으로 발생하는 비용이 낮을 때 사용하는 것이 좋습니다. 금융 기관에서 고객의 신용 점수를 예측하는 경우라면 많은 수의 데이터와 복잡한 패턴이 존재하므로 ML을 사용하는 것이 적합합니다. 또한 대규모 예측이 필요하고, 잘못된 예측으로 인한 손실은 리스크 한도 내에서 관리 가능하므로 ML이 적절합니다. 그러나 데이터베이스의 특정 컬럼을 정렬할 때는, ML이 비효율적입니다. 이러한 단순한 문제는 정렬 알고리즘으로 쉽게 해결할 수 있습니다. 또한 정부의 대규모 정책을 결정하는 데 ML을 사용하는 것은 부적절합니다. 이러한 문제는 다방면의 사례 분석과 전문가 위원회의 논의를 통해 결정하는 것이 더 나은 결과를 가져올 수 있습니다. 따라서 ML을 사용하기 전에 문제의 특성을 고려해 적합한지 여부를 결정해야 합니다. ✔️ Don’t: 사용하더라도 최초 단계부터 ML을 사용하지 마세요 1️⃣ 데이터를 활용한 예측이 처음이라면 우선 휴리스틱으로 시작하는 것이 좋습니다. ML은 전문 인력과 시스템이 필요하고 잠재적인 오류를 발견하기도 어렵습니다. 앱에서 콘텐츠를 추천해줘야 한다면 우선 인기도 기반으로 제안하는 것이 좋습니다. 이렇게 하면 적은 노력으로도 준수한 베이스라인 성능을 얻을 수 있습니다. 그러나 휴리스틱이 복잡해지고 유지 관리하기가 어려워지면, 이제 ML 적용으로 넘어갈 시기입니다. ✔️ Don’t: ML로 비즈니스 목표를 어떻게 최적화할지 지나치게 고민하지 마세요 🤔 ML은 다양한 비즈니스 목표를 충족시켜야 하는 경우가 많습니다. 이 목표들은 서로 충돌할 수 있고 추적하기도 어렵습니다. 추천 시스템에서는 정확도뿐 아니라 커버리지, 신뢰도, 참신성(Novelty)과 의외성(Serendipity), 다양성, 안정성과 강건성이 필요합니다. 그러나 ML을 개발하는 초기 단계라면 단순하게 유지하고, 가장 중요한 하나의 목표에 집중하는 것이 좋습니다. 이 주제는 논란의 여지가 있으며, 조직 문화로 수용될 수 있어야 합니다. 컴퓨터 과학자 앤드류 응(Andrew Ng)은 스탠퍼드 대학 강의에서 ML을 만드는 두 가지 접근 방식, 즉 매우 신중하게 설계한 다음 구현하는 방식과 프로토타입을 빠르게 만들고 진단하며 수정해나가는 방식을 소개합니다. 그는 조기 최적화와 지나치게 이론화하는 위험성을 들어 전자보다는 후자를 권장합니다. 그렇다면 머신러닝 '문제 정의' 단계에서 꼭 해야 할 것은 무엇일까요? 본 단계에서 반드시 해야 할 일 5가지는 다음 편에서 다룹니다. 이 내용은 제가 공저한 책 '데이터 과학자 원칙'(https://goldenrabbit.co.kr/product/dsp/)에서 발췌한 것입니다.

데이터 과학자 원칙 - 골든래빗

골든래빗

데이터 과학자 원칙 - 골든래빗

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 7월 27일 오후 2:38

 • 

저장 42조회 2,577

댓글 0