"데이터 분석 프로젝트는 어떻게 시작이 될까"
[분석 프로젝트 단계]
데이터 분석 프로젝트는 아래와 같이 3단계로 나누어 볼 수 있습니다.
1. 준비 : 분석 과제를 정의하고 범위 설정, 리소스, 협의 체계 등을 수립하는 단계
2.분석 : 필요한 데이터 마트 구축, 데이터 수집, 가공, 분석, 모델링 및 검증
3.결과 : 분석의 결과물을 비즈니스에 적용
현업 데이터 분석가로 일을 하면서 여러 분석 프로젝트 가운데 성공적으로 끝난 프로젝트도 있었지만 그렇지 않은 채 실패한 프로젝트도 있었습니다. 실패한 프로젝트를 회고해 보면 가장 큰 원인은 위 <준비> 단계가 잘못된 경우가 대부분이었습니다.
[비즈니스 문제 정의와 분석 목적 도출]
비즈니스 문제는 명확하고 직관적인 한 문장으로 정리할 수 있어야 합니다. 이때 가장 오해하는 부분 중 하나가 비즈니스 문제를 현상에 대한 설명으로 끝나서는 안 되고, 본질적인 문제점이 함께 전달되어야 합니다.
<통신>
약정기간이 끝난 고객이 다른 통신사로 이동하여 회사의 수익이 감소하고 있다. (O)
약정기간이 끝나고 고객이 다른 통신사로 이동을 한다. (X) ← 비즈니스 현상만 설명
<금융>
현재 중신용대출 신용평가모형으로 대출을 받은 고객의 연체율이 증가하면서 은행의 손해가 발생한다. (O)
중신용대출을 받은 고객의 연체율이 증가하고 있다. (X) ← 비즈니스 현상만 설명
<유통>
인기 상품의 보편적인 사이즈(55~66)가 품절되어 잠재 소비자를 놓치고 있다. (O)
인기 상품의 보편적인 사이즈(55~66) 품절이 자주 발생하고 있다. (X) ← 비즈니스 현상만 설명
이 두 가지 차이에 따라서 실제로 데이터 분석의 목적이 달라질 수 있습니다. 예를 들어, 위 통신사 예시를 들면 단순히 '약정이 끝난 고객이 다른 통신사로 이동한다' 정도로 문제가 정의가 되면 보통 분석 목적이 '고객 이탈을 예측하는 모델'을 만드는 것이 될 수 있습니다. 반면, 비즈니스 문제인 '수익이 감소하고 있다.'가 함께 정의되면 수익 감소를 최소화할 수 있는 캠페인 최적화 모델을 만드는 것이 분석 목적이 될 수 있습니다.
[분석 과제 도출과 우선순위 선정]
현업에서 우선순위를 정하기 위해 가장 많이 활용했던 방식 중 하나가 바로 GE에서 개발한 'Pay off Matrix(페이 오프 매트릭스)'인데, '비즈니스 임팩트'와 '투입 리소스' 2가지 기준에 따라 2 X 2 네 개의 분면에 과제 우선순위를 표현한 후, 프로젝트 수행이 용이하면서(easy) 비즈니스 성과(business impact)가 클 과제를 'Quick-win' 과제로 선정하여 진행합니다. 다음으로 Extra Innings를 중장기 과제로 선정하고 비즈니스 임팩트가 낮은 2가지(Stolen base, Strike out) 과제는 제외를 합니다.
간혹, Stolen base 과제를 포함하여 진행하는 경우가 있는데, 이는 과제의 산출물에 초점을 두고 비즈니스 성과를 염두에 두지 않은 결정으로 보통 실패하는 프로젝트의 경우 Stolen base 성격의 과제가 많이 포함되는 경우가 많습니다. 즉, 일을 위한 일을 만들어하는 프로젝트의 가장 전형적인 모습이라고 할 수 있습니다.
[도메인 지식의 중요성]
일반적으로 분석 프로젝트에는 반드시 '도메인 전문가'가 포함이 되어야 합니다. 데이터 분석에서 중요한 역량 중 하나로 '도메인 지식(Domain knowledge)'을 이야기하는데, 이 도메인 지식에 대해 간단히 설명을 하자면 바로 '업의 전문성' 혹은 '업에 대한 높은 이해도'로 표현할 수 있습니다.
크게는 통신, 금융, 제조, 유통, 의료 등 산업 분류로 될 수 있고 세부적으로는 같은 산업 내 '마케팅', 'SCM', 'MD' 등 영역으로도 분류할 수 있습니다. 그리고 이를 더 세부적으로도 쪼갤 수도 있습니다. 예를 들어, 같은 MD라고 하더라도 식품을 유통하는 것과 시즌성이 강한 패션 의류를 유통하는 것의 특성이 다르듯이 같은 분야라 하더라도 전혀 다른 비즈니스 문제와 분석 목적이 존재할 수 있습니다.
[효과적인 도메인 지식 습득 방법]
첫 번째로는 비즈니스 도메인 전문가와 커뮤니케이션을 늘리는 게 중요합니다. 사소한 질문일지라도 분석가가 이해되지 않거나 모르는 부분이 없도록 질문을 하는 게 좋습니다. 분석가가 가장 주의해야 할 태도로 '내가 이런 질문을 하면 나를 전문가로 보지 않으면 어떡하지?'라는 걱정을 하면서 모르는 것을 물어보지 않은 채 자신이 추측한 정보를 기반으로 분석을 시작하는 것입니다.
두 번째로 현장을 관찰하는 것이 매우 중요합니다. 현장을 관찰한다는 것은 데이터 분석가 입장에서 자신이 다루는 데이터가 어떤 과정에서 발생하고 데이터로 쌓이는지 과정을 이해하는 것입니다. 예를 들어, 이커머스 업종의 분석가라면 하나의 거래 데이터가 쌓이기까지 유저가 어떤 화면을 거쳐서 로그까지 쌓이는지를 반드시 확인해 보는 것이 중요합니다. 특히, 주요 변수나 컬럼의 경우 어떤 로직으로 데이터가 쌓이는지 반드시 이해하는 것이 필요합니다.
[No code, Note it]
끝으로 정확한 영어 표현은 아니지만 개인적으로 'No code, Note it'이라는 문장을 항상 생각합니다. 모든 분석은 코드 작성부터 시작하는 것이 아니라(No code) 내가 '무엇을 해결할지'에 대해서 적어보는 것부터(Note it) 시작된다고 생각하기 때문에 '명확한 문제 정의'에 기반하여 '분석 목적'을 수립하고자 노력하는 편입니다.
자세한 내용은 블로그를 통해 확인할 수 있습니다 :)
https://blog.naver.com/bestinall/223156828538