<데이터 사이언스와 비즈니스 인텔리전스의 차이점> 많은 분들이 두 개념에 대해서 많이 혼란을 겪는듯 하여 밑의 아티클을 기반으로 제 경험을 섞어서 정리를 해 봅니다. 저도 2000년대에 글로벌 1위 BI업체였던 비즈니스오브젝트에서 근무했던 경험이 있어서요. :-) 데이터사이언스라는 말이 나오기 전에 BI (Business Intelligence)라는 영역은 90년대 초중반부터 시작이 되었구요. 1. 데이터 사이언스 A. 요구 업무 기술 - 이해 관계자와의 사용 사례 및 문제 진술(problem statements) 작성 - 다양한 출처로부터 데이터 소스를 얻는 것 - SQL 및 Python을 사용하여 데이터 세트 생성 - 탐색적 데이터 분석 및 기능 엔지니어링 - 모델 탐색 및 비교 - 최종 모델 - 디플로이먼트 - 결과와 영향에 대한 논의 잘 살펴보다 보면, BI와 꽤나 겹치는 부분이 보이네요. 하지만, 모델, 모델링 이라는 말은 BI에서는 그다지 쓰이는 말은 아니구요. 또한 Python이나 R을 사용하는 부분에선 완전히 BI와는 다르다고 할 수 있습니다. BI에서는 훨씬 많이 SQL를 직접 사용합니다. 아래의 글에서는 데이터사이언스의 특징으로 회귀분석, Prediction, Forcasting등을 이야기 했는데, 이 부분은 이미 BI쪽에서도 함께 제공하는 기능이라 맞다고 하기엔 개인적인 견해에선 차이를 보이고 있습니다. BI Suite의 마이닝툴에서는 모두 다 제공하는 기능이라고 할 수 있습니다. 데이터 사이언스를 고용할때 보이는 잡 디스크립션을 한번 보시죠. B, 전형적인 업무 플로우 - 사용 사례 개발: "이러한 제품들은 머신 러닝 알고리즘을 통해 더 나은 분류와 더 빠르게 분류될 수 있습니다." - 제품 카탈로그와 같은 다양한 소스에서 이 알고리즘을 만들기 위해 데이터 임포트 - 필요한 데이터를 확보했으므로 SQL에서 데이터베이스를 쿼리하고 Python과 함께 Panda를 사용하여 데이터를 끌어옴. - 데이터가 있으므로, 우리는 결측값, 특이치, 기술 통계량, 평균/최소/최대 및 df.had(), df.tail(), df.column_name.value_max와 같은 단순하면서도 유용한 함수를 식별할 수 있다. 이 함수는 각 빈에 표시된 인스턴스 수에 따라 데이터를 분류. - 불필요한 특징을 제거하고 두 개의 열을 함께 분할하여 새로운 특징을 만듭니다. 이 사용 사례에서 사용할 수 있는 특별한 좋은 기능은 제품에 대한 설명입니다. 예를 들어 색상은 블랙-오렌지, XL 장신구 사이즈, 스트라이프 등 모델에서는 성인 할로윈 셔츠 제품으로 해석할 수 있습니다. - Scikit-learn 라이브러리를 사용하여 랜덤 포레스트 알고리즘을 사용하여 분류기를 만듭니다. - Amazon SageMaker를 배포 플랫폼으로 사용하여 모델을 배포합니다. - 모델의 정확성을 포함하여 분류기 결과에 대한 대시보드를 만듭니다. 위에서 보다시피, 데이터를 모이고 그 안의 정보를 해석하기 위해서 직접 개발코딩과 머신러닝과 같은 기술을 사용합니다. 이 특징은 BI와 가장 명확하게 구분이 되는 부분이라 생각합니다. 2. 비즈니스 인텔리전스 A. 요구 업무 기술 - 이해 관계자와 함께 사용 사례를 개발합니다. - Excel, VLOOKUP 및 SUMIF를 사용하여 데이터 분석을 실행합니다. (이 부분은 너무 초보단계의 BI 를 설명하는듯 해서 BI출신 개발자로선 쫌 맘에 들지 않습니다. 이것보단 훨씬 많이 복잡하거든요) - SQL을 사용하여 데이터를 가져오고, 더 복잡한 쿼리 기능으로 데이터 분석 - Tableau 또는 Looker와 같은 시각화 도구에 결과를 표시합니다. - 이해관계자 또는 경영진과 결과에 대해 논의합니다. 아티클에서는 머신러닝의 여부로 BI와 데이터사이언스를 구별하는데 그건 빙산의 일각이라고 생각합니다.일단 BI는 툴을 사용해서 그 안에서 주로 원하는 결과치를 만들고, 데이터사이언스는 모델이라는것을 프로그래밍으로 생성하는 부분이 다르기에 이용에도 차이가 있다는 판단입니다. B, 업무 플로우 - 분석할 데이터 세트를 생성할 사용자 데이터 및 시간 데이터를 가져옵니다. - Excel 및/또는 SQL로 이 데이터를 집계합니다. - SQL로 그룹화하여 오후 11시에 특정 인구 통계가 있는지 확인합니다. - 회귀 분석을 사용하여 매일 이런 일이 발생하는지 예측하고 테스트합니다. 결론: Python, R 프로그래밍이 직접 들어가면 데이터 사이언스라고 보면 맞구요. 그러다 보니 머신러닝을 써야 하는게 당연한 부분입니다. 그에 비해 BI는 툴을 사용하여 데이터 안에서 information을 찾아서 그것을 리포트나 대시보드로 만들던지, 아니면 마이닝 툴을 동원해서 predict/forecast를 가능하게 합니다.

Data Science vs Business Intelligence: Here's the Difference

Medium

Data Science vs Business Intelligence: Here's the Difference

2021년 5월 29일 오후 3:44

댓글 0