2012년 일년 놀기로 하고 10월이 되면서 뭘할까 고민하다가 야후 때 옛 동료로부터 연락이 왔다. 본인이 조인한 Polyvore라는 회사로 한번 놀러와 보라는 거였다. Polyvore는 여성패션만 집중하는 Pinterest라고 이해하면 된다. 사실 Polyvore가 2007년에 만들어졌고 Pinterest가 2년 후인 2009년에 창업되었는데 Pinterest가 Polyvore 아이디어를 카피해서 여성패션 카테고리라는 제약을 없앴다고 보는 것이 맞다. 암튼 야후와 구글 출신 창업자들과 그 지인들로 구성이 된 역량이 뛰어난 팀이었고 오피스의 위치나 분위기도 너무 좋아서 2012년 12월에 조인했다.
원래 내 전문 분야는 검색 엔진이었기에 검색 엔진 개발과 이어서 추천 엔진 개발을 목표로 조인했지만 검색어 로그 등 검색엔진 랭킹을 최적화하기 위한 데이터가 쌓여있지 않았다. 그래서 본의 아니게 먼저 검색어 로그를 S3에 수집해두는 일을 했고 AWS 환경을 사용하는 회사였기에 찾아보니 그때 Redshift가 베타 버전으로 나와 있기에 거기에 다양한 정제된 데이터들을 테이블 형태로 쌓기 시작했고 이때부터 사실 SQL을 처음 제대로 사용해보기 시작했다 :) S3에 적재된 검색어 로그를 처리하는데 Hive를 사용했다. 이 때 처음으로 Python도 배워서 데이터 처리 코드를 작성해서 크론잡으로 실행했는데 그전까지 나는 C++와 자바만 사용해봤고 처음으로 스크립트 언어를 배웠다. 나중에 보니 Redshift가 데이터 웨어하우스였고 데이터 처리하는 코드가 데이터 파이프라인이었고 내가 앞단에 했던 일이 데이터 엔지니어링이었다. 여기에 다른 엔지니어들과 분석가들을 채용해서 데이터 팀을 만들었고 이 과정에서 많은 시행착오가 있었다. 다음으로 조인했던 유데미에서는 이 시행착오 덕분에 데이터 팀 빌딩을 훨씬더 효율적으로 할 수 있었다.
그렇게 시작된 데이터팀 경력을 통해 깨달은 점은 데이터 팀이 기본적으로 지원조직이란 점이다. 그 이유는 직접 뭔가 매출을 내거나 사용자와 직접 마주치는 팀이 아닌 다른 팀들이 각자 맡은 역할을 잘 할 수 있게 도와주는 팀이기 때문이다. 물론 데이터로 돈을 버는 회사라면 다른 이야기다. 하지만 대부분의 회사는 본업이 있고 그 본업을 잘 하기 위해서 데이터를 활용하는 형태가 된다. 즉 데이터가 새로운 석유라고 하지만 실제 회사에서 일을 할 때는 데이터 팀에 스포트라이트가 가는 일은 많지 않다. 지원조직이기 때문이다.
그러면 데이터 팀의 미션은 무엇일까? Airbnb 데이터 팀의 미션으로부터 훔친 내 정의는 다음과 같다: "신뢰할 수 있는 데이터로 부가 가치를 만들어낸다"
부가 가치라고 했는데 데이터로 돈을 버는 곳이라면 "매출"이라고 대신해도 되겠지만 그게 아니라면 간접적으로 매출내는 걸 도와주게 된다는 거다. 그러면 어떤 부가 가치가 있을까? 다음 2가지가 있다.
데이터를 바탕으로 과학적인 의사결정을 할 수 있게 도와준다 (Decision Science). 보통 데이터 분석가가 이 일을 수행한다. 여기에는 Data Driven Decision과 Data Informed Decision 두 가지가 존재한다.
데이터를 바탕으로 사용자의 서비스 사용 경험을 개선한다 (Product Science). 보통 데이터 과학자가 이 일을 머신 러닝이란 형태로 수행한다.
1과 2가 가능하려면 데이터 엔지니어가 인프라를 만들어주어야 한다. 이게 바로 데이터 웨어하우스와 데이터 파이프라인인데 가장 간단한 형태의 데이터 인프라라고 볼 수 있다. 다음 포스팅에서는 데이터 인프라가 무엇인지 조금더 자세히 설명해보고 이어서 데이터 기반 의사결정과 데이터 기반 서비스 개선에 대해 차례로 알아볼 예정이다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 12일 오후 5:19