데이터는 아무것도 결정해주지 않습니다

회사에서 진행하는(혹은 진행 당하는) 프로젝트를 하다보면 오해로부터 비롯된 아이디어를 쉽게 볼 수 있습니다. 


특히나 AI가 강조되는 요즘은 더 많이 볼 수 있는 것 같네요


AI 또한 데이터 분석의 한 방법입니다.


아래와 같은 글이 프로젝트의 방향을 잡는데 큰 도움이 될거라 생각합니다.


profile picture

좋은습관연구소

에디터

1 / 내가 하는 일에 있어서 데이터의 역할을 정의하자. 즉, 데이터와 관련해서 나의 롤이 무엇인지를 알아야 데이터에 관한 공부의 목적성이 분명해진다. 2 / 내가 데이터 수집 전문가인지, 수집된 데이터를 갖고서 분석을 하는 전문가인지, 마케터로서 분석된 데이터를 갖고서 업무에 활용하려는 사람인지 이를 분명히 할 때, 데이터 사이언스와 관련해서 무엇을 알아야 하고, 무엇을 주의해야 하는 지가 결정된다. 3 / 이 책은 데이터 전문가 중에서는 이제 막 입문하고자 하는 분들 그리고 데이터 전문가가 아닌 분 중에서는 데이터에 대한 특징을 이해해서 업무적으로 도움을 얻고자 하는 분들이 보는 책이다. 데이터 사이언스 입문서 중에서도 “자칫 실수할 수 있는 부분들”에 좀 더 주목해서 쓴 책이다. 그래서 “데이터에 관해 꼭 알아야 할 오해와 진실”이라는 부제를 붙였다. 4 / ‘빅데이터’라는 단어가 워낙 유행처럼 쓰이다 보니, 빅데이터는 무조건 선이고 좋은 것처럼 인식될 때가 있는데, 그렇지는 않다. 빅데이터든 스몰데이터든 얼마나 양질의 정제된 데이터를 갖고서 분석하느냐가 더 좋은 결과를 담보한다. 양질의 데이터 100개가 이것저것 섞인 데이터 100만 개보다 더 낫다. 5 / 분석만큼이나 중요한 것이 데이터의 수집이다. 수집이 잘 못되면 아무리 좋은 기술을 갖고서 뛰어난 대가가 와서 분석한다 하더라도 그 결과는 쓸모가 없어진다. 데이터 분석은 어쨌든 모집단의 일부를 갖고서 분석하는 것으로 아무리 양질의 데이터이고, 많은 양이 있다 하더라도 결국은 진실이 아니라 진실에 가까운 추정치일 뿐이다. 그래서 데이터 없이 분석 결과를 얻을 수 있다면 그것이 최선이다. 6 / 데이터 분석 없이도 의사결정을 할 수 있는지, 반드시 데이터 분석을 거쳐야 하는지에 대한 판단은 의사결정자의 오래 된 경험과 비즈니스 도메인에 대한 이해를 바탕으로 한다. 그래서 문제의 본질을 이해하고, 데이터 분석 여부와 분석 방법 등을 아는 것이 중요하다. 많은 양의 데이터 다룰 줄 아는 능력보다 언제 써야 하는지 아는 것이 훨씬 더 중요한 능력이다. 7 / 데이터 분석이 어려운 항목은 대체 지표를 개발해서 분석을 할 때가 있다. 학습 능력을 측정하기 위해 대체 지표로 시험 성적을 활용하는 것과 같은 원리이다. 하지만 시험 성적이 학습 능력을 100% 반영한 진실이라고 말하기 어려운 것처럼 이 또한 완벽할 수 없다. 그래서 데이터 사이언스가 만병통치약이라는 생각은 관둬야 한다. 의사결정을 돕는 도구일 뿐이다는 사실을 잊어서는 안 된다. 8 / 데이터 분석을 할 때 자주하는 실수 중 하나가 ‘나의 데이터’ ‘남의 데이터’를 구분하지 못하는 것이다. 어떤 문제를 해결하고자 온갖 데이터(결과적으로 빅데이터)를 갖고 오다 보니 문제 해결에 전혀 상관없는 ‘남의 데이터’가 마치 ‘나의 데이터’처럼 취급될 때가 있다. 쓰지 않아도 될 시간과 비용을 지출하는 것이다. 9 / ‘나의 데이터’인지, ‘남의 데이터’인지를 잘 구분하기 위해서는 해결하고자 하는 문제의 정의를 잘 내려야 하고 문제 안의 변수들 사이의 관계 파악도 잘해야 한다. 결국 비즈니스 경험에 바탕을 둔 판단이 중요하다. 10 / 분석 결과가 만능일 수는 없다. 우리가 흔히 하는 실수 중 하나가 ‘당선 확률’ ‘승리 확률’인데, 이는 당선과 승리를 정확히 예측한다는 의미가 아니다. 가능성의 오차 범위를 의미한다. 그래서 누구든 미래 예측에 정확도를 가지고 있다고 말해서는 안 된다. 11 / 확률이란 ‘예측’이 아니라 ‘관리’의 의미가 있다. 승부 예측을 통해서 돈을 버느냐 마느냐 같은 것이 아니라 확률에 따라 자원을 어떻게 효율적으로 운영하느냐이다. 12 / 데이터는 과거의 발자취일 뿐이다. 예측할 수 없다. 빅데이터를 분석한다는 것은 예측을 하기 위한 것이 아니라 패턴을 찾기 위한 것이다. 13 / 데이터 분석을 통해서 나오는 결과는 변수들 사이에 상관관계를 알려주는 것이지, 인과관계를 알려주는 것은 아니다. 야구장에서의 치킨 판매량이 는다고 해서 야구 성적이 좋아지진 않는 것과 같다. 14 / 데이터 분석에만 치중하다 보면, 상식적인 판단이 헷갈려 엉뚱한 진단을 하는 수가 있다(치킨 판매량과 야구 성적 같은). 그래서 풀고자 하는 문제에 대한 통찰을 선행하는 것이 중요하다. 통찰은 결국 비즈니스 경험에서 나온다. 그리고 통찰이라는 것 역시도 조건과 경험에 따라 내용은 달라진다. 절대 진리는 없다. 15 / 데이터 리터러시는 “데이터를 읽을 줄 아는 능력”을 의미한다. 일상에서 만나는 무수한 문제들에 우리는 감정적 판단을 하는 경우가 많은데, 이는 데이터 리터러시가 부족해서 그렇다. 16 / 리터러시 역량을 키우는 방법은 해결하려는 문제의 주어진 상황이나 인과관계를 논리적으로 추론할 수 있는 소양을 갖추는 것이다. 어렵게 말했지만, 필요한 것은 세상을 이해하고, 상황을 이해하고, 맥락을 유추하는 과학적 사고를 포함한 인문학(리버럴 아트)적 능력을 갖추는 것이다. 17 / 기술의 진보는 생각 이상으로 빠르다. 지금 우리가 말하는 빅데이터는 향후 몇 년 뒤에는 스몰 데이터 수준이 될 수도 있다. 그러니 빅데이터를 만능이라고 생각해서는 안 된다. 18 / 데이터를 학습한 인공지능이 내놓는 답이 반드시 진리라는 보장은 없다. 이 말은 집단 지성이 언제나 진리는 아니라는 말과 같다. 지금의 여러 데이터가 편향된 것이라면 인공지능이 내놓는 답 또한 편향적일 수밖에 없다(인공지능은 주어진 데이터의 학습을 통해 결과를 도출하는 알고리즘일 뿐이다). 19 / 데이터 분석 모델링(시스템 설계)을 할 때는 필요로 하는 데이터가 무엇인지 알아야 하고, 측정하기 쉬운 데이터를 선택해야 한다. 데이터 분석 시스템 설계에도 전문가가 있다. 이들이 현업의 전문가와 잘 협업해야 시스템 설계를 잘할 수 있다. 20 / 시스템 설계의 핵심은 시간을 줄이고, 비용을 줄이고, 품질을 높이는 것이다. 다만, 이 셋을 동시에 해결하려다 보면 추후 결과 값 분석에서 무엇이 원인이었는지 가리지 못할 수 있다. 그래서 동시보다 하나씩 해결하는 것이 현명하다. 21 / 분석법 설계에는 여러 가지가 있다. 게임 이론도 대표적인 문제 해결법 중 하나다. 무조건 데이터 사이언스 기법만이 문제 해결을 할 수 있는 것은 아니다. 22 / 다시 한번 강조하지만, 데이터 분석이 보장하는 것은 답의 진실성이 아니라, 데이터의 대표성임을 잊지 말자. 23 / 최신 버전의 챗GPT는 데이터 분석도 해주고 요약까지도 알아서 해준다. 그래서 데이터 분석가가 설 자리가 점점 사라지고 있다. 분석 이전의 문제의 본질을 봐야 하는 이유가 더 중요해지는 것도 이 때문이다. 24 / 생성형 인공지능의 기술도 언제 어떻게 진화되어 지금의 챗GPT가 구닥다리 기술이 될지 모른다. 그러니 기술에만 빠져서 문제의 본질 읽기를 놓치는 일이 없어야 한다. 25 / 문제의 본질을 읽는 것. 그래서 문제를 풀기 위해 어떤 도구를 쓸지 결정하는 능력. 그것이 곧 인문학(리버럴 아트)적 능력이다. (내용 출처: 도서 <데이터는 예측하지 않는다>)

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 2월 22일 오전 1:16

댓글 0