데이터 이야기 #5: 기본 데이터 직군 - 데이터 과학자

앞서 포스팅에서는 기본 데이터 직군이라 할 수 있는 데이터 엔지니어, 데이터 분석가, 데이터 과학자 중 먼저 데이터 분석가에 대해서 이야기해보았다. 이번 포스팅에서는 데이터 과학자에 대해 이야기해보고자 한다.


앞서 데이터 팀이 가치를 만들어내는 두 가지 방법을 이야기했는데 그 중 두 번째인 데이터를 바탕 제품 품질 개선을 하는 역할을 하는 사람이 바로 데이터 과학자이다. 보통 데이터 과학자들은 이런 제품 개선을 머신 러닝 모델의 형태로 하게 된다. 제품의 품질을 개선하다 같이 일하는 사람들이 주로 프로덕트 매니저나 UI/UX 디자이너, 제품 개발을 하는 개발자들이 되며 데이터 일을 하다보니 데이터 분석가나 데이터 엔지니어들과도 당연히 밀접하게 일한다. 그래서 데이터 과학자의 일은 데이터 분석가와 비교했을 때 좀더 외부 지향이며 결국 제품의 고객이 청중이 된다. 지난 포스팅에서 이야기했던 것처럼 데이터 엔지니어의 주요 청중은 내부 직원들 특히 의사결정권을 가진 사람들이다.


데이터 과학자가 하는 일은 기존의 코딩으로 하기는 힘든 일들을 머신 러닝 모델이란 형태로 하게 되는데 개인적인 경험을 바탕으로 몇 가지 예를 들어보면 아래와 같다:


  • 상품 추천을 처음에는 보통 규칙 기반으로 하게 되는데 충분한 데이터가 쌓이면 그때부터는 구매 확률을 예측하는 형태로 개인화하는 거다. 유데미 때 강의 추천하는 엔진을 머신 러닝으로 만들었다. 원래 마케팅 팀이 규칙 기반으로 운영하던 것을 A/B 테스트를 통해 실제로 구매율이 올라가는 것을 확인하고 머신 러닝 모델으로 교체했다. 뒤에 더 이야기하겠지만 머신 러닝 모델도 생애 주기가 있기에 주기적으로 다시 업데이트해주어야 한다. 그래서 MLOps라는 직군이 생겼는데 이 직군에 대해서는 나중에 다시 이야기해보겠다.

  • 상품에 대한 리뷰가 달리는 경우 이게 신뢰할 수 있는 리뷰인지 알기는 쉽지 않다. 때로는 지인들이나 별도 서비스(?)를 사용해서 좋은 리뷰를 만들어내는 경우도 있고 반대로 경쟁 제품을 만드는 곳에서 평점 테러를 하기도 한다. 유데미 때 이 역시 큰 문제가 되어서 나중에는 리뷰 진위 여부를 가리는 머신 러닝 모델을 만들었다. 이걸 만든 친구는 지금 Cohere for AI에서 Research를 맡고 있다.

  • 검색엔진 랭킹의 경우 다양한 정보를 검색어, 문서등에서 뽑아서 공식을 바탕으로 추출된 문서의 순서를 정하기는 쉽지 않다. 보통 검색은 두 단계로 이뤄진다. 첫 번째는 주어진 단어가 있는 문서를 추출하는 것이고 두 번째 이런 문서들의 랭킹을 정하는 건데 보통 머신 러닝 모델은 두 번째 단계에서 적용된다. 다른 이야기지만 Elastic Search와 같은 검색엔진은 사실 랭킹을 쉽게 사용할 수 있는 진정한 검색엔진이라기 보다는 사실은 scalable하고 다양한 형태로 데이터를 aggregate하고 필터링할 수 있는 key/value 스토리지에 가깝다. 역시 다른 이야기지만 요즘 뜨고 있는 벡터DB 이야기를 하자면 이는 랭킹을 두 단계로 하기 보다는 한 큐에 유사도 기반으로 랭킹을 정하는 셈인데 점점더 많은 유스케이스에서 후처리를 통해 다른 피쳐들을 기반으로 랭킹을 다시 하는 형태로 많이 변화하고 있다.

  • 검색엔진의 경우 랭킹만 머신 러닝으로 하는 것이 아니라 각 문서들의 여러가지 속성을 문서 분류기라는 형태의 classification 모델을 만들어하게 된다. 예를 들면 문서가 섹슈얼한 내용을 담고 있는 성인문서인지, 뉴스 아티클인지, 블로그인지, 별다른 내용이 없는 정보성이 낮은 문서인지 등등 야후에서 검색엔진을 개발할 때의 경험을 놓고 보면 문서마다 20-30개의 분류기 모델이 실행이 되었다.

  • Harmonize Health라는 디지털 헬스 스타트업을 다닐 때는 65세 이상의 노인 중에 지병이 2+개 이상인 사람들을 대상으로 EHR(Electronic Health Record)과거 병력 정보와 몇 달간의 신체 정보 (체중, 혈압, 혈당 등등)를 바탕으로 아플지를 예측하는 모델을 만들기도 했다. 이런 모델의 경우 정확도(accuracy)가 중요하기 보다는 민감도(recall)가 조금더 중요하다. 즉 아픈 사람들을 얼마나 가려내느냐가 조금더 중요하다.

데이터 분석가의 일과 비교해서 데이터 과학자의 일은 조금더 사이클이 길다. 가설을 바탕으로 의미있는 리턴이 있을 것 같은 일에 필요에 따라 머신 러닝을 사용하는 형태로 가게 되며 시작은 훈련 데이터를 수집하고 이걸 정제한 후에 모델을 빌딩한다. 그런데 이게 끝이 아니고 이걸 프로덕션에 보통 API 형태로 배포하고 (백엔드 엔지니어링과 데브옵스 엔지니어링 팀과 협업이 필요) 많은 경우 A/B 테스트 형태로 기존 기능과 비교하는 과정을 거치게 된다. 즉 최소 6개월에서 보통 1년짜리 프로젝트를 하게 되는 경우가 일반적이다. 그래서 끈기를 가지고 문제를 풀기위해 집중하는 사람이 잘 할 수 밖에 없는 분야이고 그러다보니 어려운 문제를 시간을 두고 푸는 경험을 많이 해본 박사학위를 가진 사람들이 잘 한다 (순전히 내 개인적인 관찰). 또한 꼭 Computer Science 백그라운드가 아니어도 다른 분야의 경험을 한 사람들(경제, 물리, 바이오 등등)이 조금더 다양한 시각을 가지고 잘 할 수 있는 분야가 아닌가 싶다


이번 포스팅과 지난 포스팅을 통해 데이팀이 가치를 만들어내는 두 가지 일을 하는 데이터 분석가와 데이터 과학자라는 직군에 대해 간략히 살펴보았다. 다음 포스팅에서는 데이터 분석가와 데이터 과학자가 본인이 맡은 일을 할 수 있게 인프라를 만들어주는 데이터 엔지니어라는 직군에 대해 알아보도록 하겠다.


다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 20일 오후 6:50

댓글 0

    함께 읽은 게시물


    세상이 제정신이 아니다. 멀쩡한 남의 나라를 침공해 무고한 사람들의 희생을 불사하는 양심없는 대통령, 천적을 제거하며 장기 집권하는 염치없는 대통령, 자국의 이익만 강요하는 품위없는 대통령, 국민을 버리고 비자금을 챙겨 야반도주한 대통령, 야밤에 무력으로 민주주의를 훼손하는 정신나간 대통령.

    ... 더 보기

    (금요아침) 준비된 리더를 기다리며

    전기신문

    (금요아침) 준비된 리더를 기다리며

    조회 254


    < 네이버는 왜 아이폰 쓰던 직원들에게 안드로이드폰을 사줬을까? >

    1. 2010년경 네이버에서의 일이다. 스마트폰이 처음 나왔을 무렵이다. 아이폰이 먼저 나왔다. 이어서 다양한 안드로이드 폰이 나오며 시장 점유율이 늘기 시작했다. 더 많은 사람들이 안드로이드 폰을 쓰기 시작했다. 시장이 열리니 그에 맞는 모바일 전략과 서비스

    ... 더 보기

    컬리의 물류 자회사 '컬리넥스트마일'의 신규 거래 및 협의 규모는 팀프레시가 기존 보유했던 신선식품 물량의 52% 수준에 달한다. 5월 기준 컬리의 신규 물량은 팀프레시 사태 이후 2.5배 증가했다. 

    ... 더 보기

    컬리, 팀프레시 이탈 물량 52% 흡수…새벽배송 판 흔들다

    블로터

    컬리, 팀프레시 이탈 물량 52% 흡수…새벽배송 판 흔들다