🌈 쏘카 AI팀의 Applied Research Scientist는 어떤 일을 하나요? 🎁 이 글을 추천하는 이유 - 데이터, AI 업계의 직군들은 모두 다 다르게 정의하고 있습니다 - 3~4

🌈 쏘카 AI팀의 Applied Research Scientist는 어떤 일을 하나요? 🎁 이 글을 추천하는 이유 - 데이터, AI 업계의 직군들은 모두 다 다르게 정의하고 있습니다 - 3~4년 전엔 데이터 사이언티스트라는 직군이 연구하는 역할로 되었으나 요새는 Research Scientist라는 이름으로 사용되고 있습니다 - 실리콘밸리의 회사를 보면 Applied Research Scientist라는 이름으로 채용 공고를 내는 경우도 존재합니다 - 쏘카에서는 Applied Research Scientist 직군을 어떻게 정의하는지 정리한 글입니다 - 미묘하게 다른 관점을 가지고 있는데, 이 글을 통해 직군에 대한 이해를 잘 할 수 있으면 좋겠네요-! ✍ 내용 요약 - AI에 관련된 직무에는 무엇이 있을까? - Research Scientist - Applied Research Scientist - Machine Learning Engineer - Data Scientist Research Scientist: 어떻게 SOTA를 뛰어넘을 수 있을까? - Research Scientist는 AI에 관련된 원천 기술을 연구하는 포지션 - Research Scientist는 Public Benchmark Dataset에서 이전 연구가 달성한 최고 성능 (State-of-the-Art; SOTA)를 넘어서는 기법을 연구하고, 이전 SOTA의 한계점을 보완하는 기법을 연구 - Research Scientist의 Research Questions - Gradient Descent를 기반으로 Learning Objective를 달성하는 것이 아니라, 인간처럼 Reasoning을 하는 AI를 만들 수는 없을까? - 이미지를 이해하는 여러 Neural Networks Architecture가 있는데, 특정한 패턴에 bias 되지 않고 더 인간처럼 이미지를 이해하는(혹은 인간보다 더 뛰어나게) 구조는 없을까? - 최근에 제안된 Language Model (BERT, RoBERTa, S-BERT 등)보다 더 인간처럼 (혹은 인간보다 더 뛰어나게) 지식을 이해하는 모델은 없을까? Applied Research Scientist: 우리 비즈니스 도메인의 문제를 어떻게 풀 수 있을까? - Applied Research Scientist는 특정 비즈니스 도메인의 문제를 풀 수 있는 AI를 연구하고, 연구된 모델을 배포하는 일을 수행하는 포지션 - Applied Research Scientist는 Public Benchmark와 Real-world의 차이를 고민하면서, SOTA 기법이 우리 도메인에서 왜 안되는지 (혹은 왜 잘 되는지)를 파악하고, 제안된 여러 기법들을 최적화하거나 새로운 기법을 디자인하기도 합니다. - Applied Research Scientist의 Research Questions - 논문 A는 ImageNet, SUN, Place 365에서 높은 성능을 달성했는데, 우리 도메인에서는 성능이 높지 않은데, 그 이유가 뭘지? 우리 데이터와 Public Benchmark에는 어떤 차이가 있어서 그럴까? - 우리 도메인에서 다루는 데이터는 Public Benchmark들과는 너무 다른데, 우리 도메인에서 잘 동작하는 새로운 Neural Architecture를 디자인해 볼까? - 모델 B가 배포되었을 때 낮은 Overhead를 달성하려면 코드를 어떻게 리팩토링 해야 할까? 모델에 들어가는 Input은 어떻게 설계하고, Inference 결과는 어떤 테이블에 어떻게 적재하지? Machine Learning Engineer: AI 모델을 어떻게 효과적으로 구현하고 서비스화 시킬까? - Machine Learning Engineer는 AI 모델의 개발과 서비스에 더 무게를 두고 있는 포지션 - Machine Learning Engineer의 Research Questions - 매 실험에 사용된 데이터 셋과 모델의 아키텍처, Weight 파일들이 관리가 어려운데, 이를 좀 효과적으로 관리할 수 있는 방법이 없을까? - Pytorch로 작성된 모델이 비효율적인 것 같아. 프로덕션에 들어가려면 더 Overhead를 낮춰야 할 것 같은데, Tensorflow로 이를 변환해 볼 수 있을까? - GPU의 개수는 많은데 그 성능을 100% 사용하지는 못하네. 최대한 효율적으로 GPU 자원을 사용할 수는 없을까? Data Scientist: 데이터를 기반으로 어떤 Action을 할 수 있을까? - Data Scientist는 비즈니스 도메인에서 발생한 다양한 데이터를 분석하는 포지션 - Data Scientist의 Request Questions - (Business) 이번 주말에 강남역 10번 출구 쏘카 존의 예약 건은 얼마나 될까? - (Business) 2022년에 서울시 은평구에 몇 대의 차량을 배차하면 대 당 매출이 얼마나 될 것으로 예측할 수 있을까? - (Business) 가장 적은 매출이 나올 지역을 데이터에 기반해 찾아주는 알고리즘을 어떻게 만들 수 있을까? - (Product) 쏘카의 Funnel 중 가장 전환율이 낮은 부분은 어디일까? 그 부분을 개선하기 위해서는 어떤 Action을 할 수 있을까? 어떤 실험을 진행하면 이에 대한 결론을 얻을 수 있을까? - (Product) 새로운 기능 개발을 시작하려고 하는데, 이 기능 개발이 성공했다고 보려면 어떤 Metric을 결정해야 할까? 그 Metric을 보기 위해 어떤 앱, 웹 데이터를 로깅해야할까 새로운 기능을 AB Test 하려고 할 경우, 어떤 방법으로 설계할 수 있을까? - (Product) 새로운 기능이 출시된 이후에 성공적인지 확인하기 위해 대시보드는 어떻게 구성해야 할까? 쏘카 AI팀이 하는 일 - Vision Domain - 사전에 경차나 중형 차에 속하지 않는다고 판단하면서 (Out-of-Distribution Detection), 기존 분류기의 성능을 유지할 수는 없을까요? (Open-Set Recognition) - 잘못된 예측을 수행했을 때는 less-confident 하게 틀리고, 옳은 예측에 대해서는 more confident 하게 맞추도록 할 수는 없을까요? (Calibration) 실무에서는 모델의 예측 결과뿐만 아니라, 모델이 확실하게 예측한 건들을 먼저 검토하고자 하는데, 이 확신의 정도를 어떻게 잘 측정할 수 있을까요? - NLP Domain - 고객이 필요로 하는 솔루션이 각기 다른데, 이 문의들을 하나의 Intent로 묶을 수 있을까요? 혹은 한 문장에 여러 가지 문제가 섞여있을 때는 어떻게 처리할 수 있을까요? (Multi-Labeled Sample) - 사전에 정의해둔 Intent에서 벗어난 문의는 어떻게 응답해야 할까요? (Unknown Intent Detection) Vision 도메인에서와 마찬가지로, 고객의 문의에 대해 예측한 Intent에 대한 Confidence를 어떻게 측정할 수 있을까요?

🌈 쏘카 AI팀의 Applied Research Scientist는 어떤 일을 하나요? 🎁 이 글을 추천하는 이유 - 데이터, AI 업계의 직군들은 모두 다 다르게 정의하고 있습니다 - 3~4

알림