앞서 포스팅에서는 데이터 팀의 목적이 무엇이고 어떻게 가치를 생성하는지 이야기해보았다. 이번 포스팅에서는 기본 데이터 직군이라 할 수 있는 데이터 엔지니어, 데이터 분석가, 데이터 과학자에 대해 이야기해보고자 한다.
먼저 앞서 데이터 팀이 가치를 만들어내는 두 가지 방법을 이야기했는데 데이터를 바탕으로한 의사결정을 가능하게 해주는 역할을 하는 것이 데이터 분석가다. 데이터 분석가의 주요 청중은 내부 직원들 특히 의사결정권을 가진 사람들이다.
데이터 분석가가 하는 일은 특정 도메인(마케팅, 세일즈, CS/CX, 프로덕트, 전략, ...)에 관해 지표를 만들고 이를 보기 쉽게 대시보드 형태로 시각화하고 예고없이 들어오는 다양한 분석 요청을 데이터 기반으로 하는 거다. 데이터 분석가가 알아야 하는 기술과 경험은 아래와 같다.
SQL이 기본이지만 Python을 사용해서 EDA (Exploratory Data Analysis)를 하는 것도 점점더 필요하다. 회사에 따라서는 데이터 분석가들에게도 Airflow와 같은 툴을 사용해서 데이터 파이프라인을 만들 줄 안다면 가산점을 주기도 한다.
ELT라고 부르는 raw data 테이블들을 바탕으로 사용하기 쉬운 추상화된 테이블을 만드는 것. 보통 dbt를 많이 사용하지만 SQL로 아주 간단하게 가자면 CTAS (Create Table As Select)를 쓸 수도 있다.
앞서 ELT와 관련된 부분이기도 한데 데이터 모델링을 잘 안다면 다양한 추상화 테이블들을 잘 만들 수 있다. 가장 많이 사용되는 방식은 크게 두 가지인데 흔히 Dimensional Modeling이라고 해서 데이터를 Fact table과 Dimension table들로 나눠서 저장하는 것이 하나이고 다른 하나는 이 모든 것을 하나의 큰 테이블(denormalized table)로 저장하는 건데 장단점이 존재하며 상황에 맞게 선택하는 것이 좋다.
다음은 A/B 테스트는 무엇인지 이해하고 경력이 많다면 A/B 테스트 분석 경험이 있어야 한다. 여기에는 Frequentist 방식과 Bayesian 방식이 있다. 전자에 관해 유데미에 만든 강의가 있는데 댓글 참고
데이터를 기본으로 리포트를 만들고 이를 설명해야할 일이 많기에 의사소통 능력이 중요하고 일을 하기 전에 문맥을 파악하기 위한 질문을 하는 것이 필요하다.
때로는 가진 시간보다 더 많은 분석 요청이 들어올 수 있기에 스트레스를 받기 쉬운 직군이기도 하며 조직 구조에 따라 만족도가 굉장히 달라지는 직군이기도 하다.
데이터 분석가 같은 경우 데이터 분석이란 일이 거의 모든 직군에서 일하는 사람들이 알아야 하는 기본 기술처럼 바뀌고 있다보니 별도의 직군으로 존재하기 보다는 일부 업무만 특화된 형태의 직군으로 존재할 가능성이 높다. Citizen Data Analyst라는 용어가 있다. 예를 들자면 마케터인데 데이터 분석을 할 줄 아는 사람, 프로덕트 매니저인데 데이터 분석을 할 줄 아는 사람을 말한다. 인공지능 툴의 발전과 함께 이 방향으로 변화는 가속화되리라 믿는다.
다르게 보면 데이터 분석이란 기본 기술을 익히고 다른 사람들을 서포트하면 분석이란 일만 하려고 하지말고 기회가 생긴다면 데이터 분석이란 기술을 바탕으로 완전히 다른 일을 해볼 수 있다는 오픈 마인드가 요즘처럼 빠르게 변화하는 세상에서는 필요하다.
다음 포스팅에서 데이터 과학자에 대해 이야기해보겠다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 18일 오후 7:16