데이터 이야기 #5: 기본 데이터 직군 - 데이터 과학자

앞서 포스팅에서는 기본 데이터 직군이라 할 수 있는 데이터 엔지니어, 데이터 분석가, 데이터 과학자 중 먼저 데이터 분석가에 대해서 이야기해보았다. 이번 포스팅에서는 데이터 과학자에 대해 이야기해보고자 한다.

앞서 데이터 팀이 가치를 만들어내는 두 가지 방법을 이야기했는데 그 중 두 번째인 데이터를 바탕 제품 품질 개선을 하는 역할을 하는 사람이 바로 데이터 과학자이다. 보통 데이터 과학자들은 이런 제품 개선을 머신 러닝 모델의 형태로 하게 된다. 제품의 품질을 개선하다 같이 일하는 사람들이 주로 프로덕트 매니저나 UI/UX 디자이너, 제품 개발을 하는 개발자들이 되며 데이터 일을 하다보니 데이터 분석가나 데이터 엔지니어들과도 당연히 밀접하게 일한다. 그래서 데이터 과학자의 일은 데이터 분석가와 비교했을 때 좀더 외부 지향이며 결국 제품의 고객이 청중이 된다. 지난 포스팅에서 이야기했던 것처럼 데이터 엔지니어의 주요 청중은 내부 직원들 특히 의사결정권을 가진 사람들이다.

데이터 과학자가 하는 일은 기존의 코딩으로 하기는 힘든 일들을 머신 러닝 모델이란 형태로 하게 되는데 개인적인 경험을 바탕으로 몇 가지 예를 들어보면 아래와 같다:

상품 추천을 처음에는 보통 규칙 기반으로 하게 되는데 충분한 데이터가 쌓이면 그때부터는 구매 확률을 예측하는 형태로 개인화하는 거다. 유데미 때 강의 추천하는 엔진을 머신 러닝으로 만들었다. 원래 마케팅 팀이 규칙 기반으로 운영하던 것을 A/B 테스트를 통해 실제로 구매율이 올라가는 것을 확인하고 머신 러닝 모델으로 교체했다. 뒤에 더 이야기하겠지만 머신 러닝 모델도 생애 주기가 있기에 주기적으로 다시 업데이트해주어야 한다. 그래서 MLOps라는 직군이 생겼는데 이 직군에 대해서는 나중에 다시 이야기해보겠다.
상품에 대한 리뷰가 달리는 경우 이게 신뢰할 수 있는 리뷰인지 알기는 쉽지 않다. 때로는 지인들이나 별도 서비스(?)를 사용해서 좋은 리뷰를 만들어내는 경우도 있고 반대로 경쟁 제품을 만드는 곳에서 평점 테러를 하기도 한다. 유데미 때 이 역시 큰 문제가 되어서 나중에는 리뷰 진위 여부를 가리는 머신 러닝 모델을 만들었다. 이걸 만든 친구는 지금 Cohere for AI에서 Research를 맡고 있다.
검색엔진 랭킹의 경우 다양한 정보를 검색어, 문서등에서 뽑아서 공식을 바탕으로 추출된 문서의 순서를 정하기는 쉽지 않다. 보통 검색은 두 단계로 이뤄진다. 첫 번째는 주어진 단어가 있는 문서를 추출하는 것이고 두 번째 이런 문서들의 랭킹을 정하는 건데 보통 머신 러닝 모델은 두 번째 단계에서 적용된다. 다른 이야기지만 Elastic Search와 같은 검색엔진은 사실 랭킹을 쉽게 사용할 수 있는 진정한 검색엔진이라기 보다는 사실은 scalable하고 다양한 형태로 데이터를 aggregate하고 필터링할 수 있는 key/value 스토리지에 가깝다. 역시 다른 이야기지만 요즘 뜨고 있는 벡터DB 이야기를 하자면 이는 랭킹을 두 단계로 하기 보다는 한 큐에 유사도 기반으로 랭킹을 정하는 셈인데 점점더 많은 유스케이스에서 후처리를 통해 다른 피쳐들을 기반으로 랭킹을 다시 하는 형태로 많이 변화하고 있다.
검색엔진의 경우 랭킹만 머신 러닝으로 하는 것이 아니라 각 문서들의 여러가지 속성을 문서 분류기라는 형태의 classification 모델을 만들어하게 된다. 예를 들면 문서가 섹슈얼한 내용을 담고 있는 성인문서인지, 뉴스 아티클인지, 블로그인지, 별다른 내용이 없는 정보성이 낮은 문서인지 등등 야후에서 검색엔진을 개발할 때의 경험을 놓고 보면 문서마다 20-30개의 분류기 모델이 실행이 되었다.
Harmonize Health라는 디지털 헬스 스타트업을 다닐 때는 65세 이상의 노인 중에 지병이 2+개 이상인 사람들을 대상으로 EHR(Electronic Health Record)과거 병력 정보와 몇 달간의 신체 정보 (체중, 혈압, 혈당 등등)를 바탕으로 아플지를 예측하는 모델을 만들기도 했다. 이런 모델의 경우 정확도(accuracy)가 중요하기 보다는 민감도(recall)가 조금더 중요하다. 즉 아픈 사람들을 얼마나 가려내느냐가 조금더 중요하다.

데이터 분석가의 일과 비교해서 데이터 과학자의 일은 조금더 사이클이 길다. 가설을 바탕으로 의미있는 리턴이 있을 것 같은 일에 필요에 따라 머신 러닝을 사용하는 형태로 가게 되며 시작은 훈련 데이터를 수집하고 이걸 정제한 후에 모델을 빌딩한다. 그런데 이게 끝이 아니고 이걸 프로덕션에 보통 API 형태로 배포하고 (백엔드 엔지니어링과 데브옵스 엔지니어링 팀과 협업이 필요) 많은 경우 A/B 테스트 형태로 기존 기능과 비교하는 과정을 거치게 된다. 즉 최소 6개월에서 보통 1년짜리 프로젝트를 하게 되는 경우가 일반적이다. 그래서 끈기를 가지고 문제를 풀기위해 집중하는 사람이 잘 할 수 밖에 없는 분야이고 그러다보니 어려운 문제를 시간을 두고 푸는 경험을 많이 해본 박사학위를 가진 사람들이 잘 한다 (순전히 내 개인적인 관찰). 또한 꼭 Computer Science 백그라운드가 아니어도 다른 분야의 경험을 한 사람들(경제, 물리, 바이오 등등)이 조금더 다양한 시각을 가지고 잘 할 수 있는 분야가 아닌가 싶다

이번 포스팅과 지난 포스팅을 통해 데이팀이 가치를 만들어내는 두 가지 일을 하는 데이터 분석가와 데이터 과학자라는 직군에 대해 간략히 살펴보았다. 다음 포스팅에서는 데이터 분석가와 데이터 과학자가 본인이 맡은 일을 할 수 있게 인프라를 만들어주는 데이터 엔지니어라는 직군에 대해 알아보도록 하겠다.

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 9월 20일 오후 6:50

저장 7 • 조회 3,204

함께 읽은 게시물

골빈해커

Chief Maker

5일 전

GPT-5 성능도 성능이지만 속도가 굉장히 빠르네요. 이거 생각은 하고 말하는거야? 싶을 정도. 개인적으로는 최상위 성능을 이정도 속도로 뽑아낸다는게 가장 중요한 혁신인 것 같습니다. 성능도 성능이지만 이 속도 덕분에 더욱 많은 것들이 더욱 빠르게 바뀌지않을까 싶습니다.

조회 1,244

Arawn Park

Senior Engineer & Engineering Lead

8월 5일

신뢰에 대한 단상

출근길에 읽던 글에서 신뢰에 대한 언급이 있었다. 그리고 문득, 얼마 전 구성원들과 대화하며 나도 모르게 "저를 믿고 한번 따라와 주세요"라고 말했던 순간이 떠올랐다. 글의 한 구절이 유독 마음에 깊이 파고들었다.

저장 2 • 조회 1,409

김문수

토스 데이터 엔지니어 | ex-뱅크샐러드

2일 전

토스 데이터 직군 집중 채용 - 면접만 봐도 100만원!

토

토스 DATA·ML 집중채용

toss.im

저장 2 • 조회 1,389

황경찬(Boaz)

P.E.C CEO

2일 전

혹시 Claude 나 cursor 등 AI 로 개발하실 때
뭔가 AI 스러운 뻔한 디자인 때문에

www.linkedin.com

저장 12 • 조회 926

레드버스백맨

리서처 앤 라이터

하루 전

《콤플렉스는 고통의 실체》

콤

조회 587

강재상

스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

4일 전

사업아이템과 고객 검증을 통한 사업아이템 고도화

이

저장 3 • 조회 538