실제 업무에 사용하는 데이터는 매우 복잡하고 잘 정리되지 않은 경우가 많습니다. 그리고 불필요한 데이터도 섞여있기 마련이죠. 따라서 실무에 사용할 데이터를 분석하기에 용이한 쓸모있는 상태로 만들어주는 단계가 필요합니다.
이때 데이터 분석가는 EDA를 사용합니다.
EDA 는 Exploratory Data Analysis 의 줄임말로
탐색적 데이터 분석이라고 합니다.
EDA는 어떻게 데이터를 쓸모있게 만들까라는 고민을 도와주는 단계인 것이죠. 그럼 데이터 분석가가 EDA를 하지 않았을때 생길수 있는 문제는 어떤 것들이 있을까요?
크게 3가지 문제가 생길수 있습니다.
1. 첫번째 문제
데이터 탐색 분석을 하지 않고 진행하게 되면 의미없는 분석 결과를 도출할 가능성이 높아집니다.
만약 데이터가 잘못된 정보를 담고있거나, 너무 많은 데이터가 비어있는 경우에는 분석하는 의미가 없어지는 것이죠. 따라서 데이터가 분석에 적합한 형태로 존재하는지 먼저 확인하는 과정이 EDA입니다. 결측치 또는 분포도를 통해 데이터가 너무 한쪽으로 치우치지 않았는지, 또는 데이터의 양이 너무 부족하지 않은지를 파악하는 것이 필요합니다.
2. 두번째 문제
EDA를 거치지 않은 분석은 데이터가 숨기고 있는 다른 인사이트들을 놓치게 됩니다. 데이터에 대한 전반적인 이해와 탐색을 바탕으로 만들어진 분석은 후에도 많은 추가 질문들을 만들어내고 추가 질문들은 다른 중요한 인사이트로 이어집니다. 하지만 하나의 문제만을 풀기 위한 분석은 그 뒤에도 다른 방향으로 진행하기가 어려워 집니다.
3. 세번째 문제
EDA가 없는 분석은 데이터를 잘못 이해할 가능성이 높습니다.
세번째 경우가 가장 데이터 분석가로서 피해야할 경우인데요. 의미를 도출하지 못하거나 다른 질문으로 이어지지 못하는 분석은 최대한의 피해가 비지니스 결정에 도움이 되지 못하는 데에 그치지만, 잘못된 데이터 분석은 비지니스의 피해로 이어질수 있습니다.
사람은 스스로의 경험으로 상황을 이해하기 전에 먼저 판단을 내리는 ‘편향(Bids)’을 가지고 있습니다. 데이터 분석에서 가장 먼저 배제해야할 것은 이 편향성이고 이것을 어떻게 조절하느냐에 따라 데이터 분석의 퀄리티가 달라질수 있습니다.
EDA는 인간의 편향성을 최대한 낮춰주고 데이터 자체를 이해하는 행위를 통해 우리가 바라보는 데이터가 현실과 부합하는지를 검증하는 역할을 합니다.
우리의 인생에서도 마찬가지입니다.
우리가 아는 세상과 실제 세상이 다르듯이 말이죠.
#데이터리차드 #데이터분석 #데이터교육