데이터 이야기 #5: 기본 데이터 직군 - 데이터 과학자

앞서 포스팅에서는 기본 데이터 직군이라 할 수 있는 데이터 엔지니어, 데이터 분석가, 데이터 과학자 중 먼저 데이터 분석가에 대해서 이야기해보았다. 이번 포스팅에서는 데이터 과학자에 대해 이야기해보고자 한다.


앞서 데이터 팀이 가치를 만들어내는 두 가지 방법을 이야기했는데 그 중 두 번째인 데이터를 바탕 제품 품질 개선을 하는 역할을 하는 사람이 바로 데이터 과학자이다. 보통 데이터 과학자들은 이런 제품 개선을 머신 러닝 모델의 형태로 하게 된다. 제품의 품질을 개선하다 같이 일하는 사람들이 주로 프로덕트 매니저나 UI/UX 디자이너, 제품 개발을 하는 개발자들이 되며 데이터 일을 하다보니 데이터 분석가나 데이터 엔지니어들과도 당연히 밀접하게 일한다. 그래서 데이터 과학자의 일은 데이터 분석가와 비교했을 때 좀더 외부 지향이며 결국 제품의 고객이 청중이 된다. 지난 포스팅에서 이야기했던 것처럼 데이터 엔지니어의 주요 청중은 내부 직원들 특히 의사결정권을 가진 사람들이다.


데이터 과학자가 하는 일은 기존의 코딩으로 하기는 힘든 일들을 머신 러닝 모델이란 형태로 하게 되는데 개인적인 경험을 바탕으로 몇 가지 예를 들어보면 아래와 같다:


  • 상품 추천을 처음에는 보통 규칙 기반으로 하게 되는데 충분한 데이터가 쌓이면 그때부터는 구매 확률을 예측하는 형태로 개인화하는 거다. 유데미 때 강의 추천하는 엔진을 머신 러닝으로 만들었다. 원래 마케팅 팀이 규칙 기반으로 운영하던 것을 A/B 테스트를 통해 실제로 구매율이 올라가는 것을 확인하고 머신 러닝 모델으로 교체했다. 뒤에 더 이야기하겠지만 머신 러닝 모델도 생애 주기가 있기에 주기적으로 다시 업데이트해주어야 한다. 그래서 MLOps라는 직군이 생겼는데 이 직군에 대해서는 나중에 다시 이야기해보겠다.

  • 상품에 대한 리뷰가 달리는 경우 이게 신뢰할 수 있는 리뷰인지 알기는 쉽지 않다. 때로는 지인들이나 별도 서비스(?)를 사용해서 좋은 리뷰를 만들어내는 경우도 있고 반대로 경쟁 제품을 만드는 곳에서 평점 테러를 하기도 한다. 유데미 때 이 역시 큰 문제가 되어서 나중에는 리뷰 진위 여부를 가리는 머신 러닝 모델을 만들었다. 이걸 만든 친구는 지금 Cohere for AI에서 Research를 맡고 있다.

  • 검색엔진 랭킹의 경우 다양한 정보를 검색어, 문서등에서 뽑아서 공식을 바탕으로 추출된 문서의 순서를 정하기는 쉽지 않다. 보통 검색은 두 단계로 이뤄진다. 첫 번째는 주어진 단어가 있는 문서를 추출하는 것이고 두 번째 이런 문서들의 랭킹을 정하는 건데 보통 머신 러닝 모델은 두 번째 단계에서 적용된다. 다른 이야기지만 Elastic Search와 같은 검색엔진은 사실 랭킹을 쉽게 사용할 수 있는 진정한 검색엔진이라기 보다는 사실은 scalable하고 다양한 형태로 데이터를 aggregate하고 필터링할 수 있는 key/value 스토리지에 가깝다. 역시 다른 이야기지만 요즘 뜨고 있는 벡터DB 이야기를 하자면 이는 랭킹을 두 단계로 하기 보다는 한 큐에 유사도 기반으로 랭킹을 정하는 셈인데 점점더 많은 유스케이스에서 후처리를 통해 다른 피쳐들을 기반으로 랭킹을 다시 하는 형태로 많이 변화하고 있다.

  • 검색엔진의 경우 랭킹만 머신 러닝으로 하는 것이 아니라 각 문서들의 여러가지 속성을 문서 분류기라는 형태의 classification 모델을 만들어하게 된다. 예를 들면 문서가 섹슈얼한 내용을 담고 있는 성인문서인지, 뉴스 아티클인지, 블로그인지, 별다른 내용이 없는 정보성이 낮은 문서인지 등등 야후에서 검색엔진을 개발할 때의 경험을 놓고 보면 문서마다 20-30개의 분류기 모델이 실행이 되었다.

  • Harmonize Health라는 디지털 헬스 스타트업을 다닐 때는 65세 이상의 노인 중에 지병이 2+개 이상인 사람들을 대상으로 EHR(Electronic Health Record)과거 병력 정보와 몇 달간의 신체 정보 (체중, 혈압, 혈당 등등)를 바탕으로 아플지를 예측하는 모델을 만들기도 했다. 이런 모델의 경우 정확도(accuracy)가 중요하기 보다는 민감도(recall)가 조금더 중요하다. 즉 아픈 사람들을 얼마나 가려내느냐가 조금더 중요하다.

데이터 분석가의 일과 비교해서 데이터 과학자의 일은 조금더 사이클이 길다. 가설을 바탕으로 의미있는 리턴이 있을 것 같은 일에 필요에 따라 머신 러닝을 사용하는 형태로 가게 되며 시작은 훈련 데이터를 수집하고 이걸 정제한 후에 모델을 빌딩한다. 그런데 이게 끝이 아니고 이걸 프로덕션에 보통 API 형태로 배포하고 (백엔드 엔지니어링과 데브옵스 엔지니어링 팀과 협업이 필요) 많은 경우 A/B 테스트 형태로 기존 기능과 비교하는 과정을 거치게 된다. 즉 최소 6개월에서 보통 1년짜리 프로젝트를 하게 되는 경우가 일반적이다. 그래서 끈기를 가지고 문제를 풀기위해 집중하는 사람이 잘 할 수 밖에 없는 분야이고 그러다보니 어려운 문제를 시간을 두고 푸는 경험을 많이 해본 박사학위를 가진 사람들이 잘 한다 (순전히 내 개인적인 관찰). 또한 꼭 Computer Science 백그라운드가 아니어도 다른 분야의 경험을 한 사람들(경제, 물리, 바이오 등등)이 조금더 다양한 시각을 가지고 잘 할 수 있는 분야가 아닌가 싶다


이번 포스팅과 지난 포스팅을 통해 데이팀이 가치를 만들어내는 두 가지 일을 하는 데이터 분석가와 데이터 과학자라는 직군에 대해 간략히 살펴보았다. 다음 포스팅에서는 데이터 분석가와 데이터 과학자가 본인이 맡은 일을 할 수 있게 인프라를 만들어주는 데이터 엔지니어라는 직군에 대해 알아보도록 하겠다.


다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 20일 오후 6:50

댓글 0

    함께 읽은 게시물

    2019년 저서 <생산성 마스터가 되는 비법(How to be a Productivity Ninja)>으로 인기를 얻은 그레이엄 올콧은 투자은행을 대상으로 연설을 했는데 “친절함이 모든 것의 원동력이 된다. 당신이 친절하면 이긴다. 그게 전부”라고 말했다. 대부분의 청중은 이에 동의했지만, 일부는 매우 강하게 반대했다.

    ... 더 보기

    성격 나빠도 일만 잘하면 된다? 친절한 직원이 성과도 좋다 - 매일경제

    매일경제

    성격 나빠도 일만 잘하면 된다? 친절한 직원이 성과도 좋다 - 매일경제

    <🇺🇸 미국 취업 루트?> 미국, 캐나다 근무했던 경험을 바탕으로 취업 루트 몇 가지 알려드립니다 (현재는 미국 정착). 이 포스팅은 몇 가지 옵션을 간단하게 소개하기 위해 공유합니다. 이민 전문 변호사가 아니기 때문에 자세한 정보는 변호사와 상담해보세요. 1️⃣ 미국 대학 졸업 + OPT/OPT STEM EAD 수령 미국 정부에서 인정하는 4년제 대학을 졸업하면 취업할 수 있는 OPT 프로그램을 제공합니다. OPT는 비자가 아니며 취업 권한을 가질 수 있는 프로그램입니다. 문과는 대게 1년이며 이과는 1+2, 총 3년입니다. 문제는 OPT의 경우 기간이 짧고 이 기간 내에 영주권 수령이 거의 불가능하기 때문에 추후 미국 6년짜리 취업 비자인 H1B 스폰서십을 받아야 합니다. OPT는 회사가 스폰서 하는 프로그램이 아니라 학교에서 제공하는 프로그램이라서 이직이 비교적 자유롭고, 해고당하더라도 취업 권한이 사라지지 않고 다른 회사에 다시 취업할 수 있습니다. 굳이 미국 대학이 아니라도 2년 대학원 유학을 통해 OPT/OPT STEM 자격을 얻어서 취업하는 경우도 많습니다. 2️⃣ H1B 회사가 스폰해주는 미국 취업 비자입니다. 총기간은 6년이지만 3년마자 재 신청해서 총 6년까지 받을 수 있습니다. 한국에서 대학을 나오더라도 미국 회사 인터뷰 통과 후 스폰만 해준다면 지원할 수 있습니다. 굳이 미국 대학을 나오지 않아도 됩니다. 문제는 H1B 수령은 하늘의 별따기만큼 어렵습니다. 로또처럼 무작위로 정해진 숫자만큼 뽑는데, 지원자는 3배 이상 많아서 성공률이 33% 이내로 적습니다. 3️⃣ 외국계 취업 후 L1비자로 미국 본사로 이직 캐나다 있을 때 가장 많이 본 케이스입니다. 미국 회사의 외국 지사에 1년 근무하면 L1비자를 스폰받을 수 있습니다. L1수령 후 미국 본사에서 근무 가능합니다. 물론 회사에서 해줘야지만 받을 수 있는 비자이지만 L1은 H1B처럼 정해진 숫자가 있는 게 아니라 서류와 인터뷰 심사만 잘하면 받을 수 있습니다. 코로나 이전에는 3개월에서 6개월이면 수령할 수 있어서 주변의 많은 지인들이 캐나다에서 미국으로 이직했었습니다. 단점이라면 L1은 회사에서 해고당하는 날 바로 한국으로 귀국해야 합니다. L1 기간 중 회사에서 영주권을 스폰해주면 다행이지만, 안 해주고 해고당하면 언제든지 나갈 준비를 해야 하... 더 보기


    [서평]일잘러의 비밀, 챗GPT와 GPTs로 나만의 AI 챗봇 만들기

    ... 더 보기

    사용자가 공유한 콘텐츠

    www.hanbit.co.kr

    사용자가 공유한 콘텐츠

    주목할만한 재한외국인 시장. 다양한 비즈니스들 많이 나올듯

    ... 더 보기

    스톤브릿지·뮤렉스, 하이어다이버시티 '50억' 투자 - 딜사이트

    딜사이트

    스톤브릿지·뮤렉스, 하이어다이버시티 '50억' 투자 - 딜사이트

    🕊️ Java의 ExecutorService 스레드 풀 정복하기

    ... 더 보기

    Java의 ExecutorService 스레드 풀 정복하기

    덕토피아

    Java의 ExecutorService 스레드 풀 정복하기

     • 

    저장 27 • 조회 3,274