데이터 과학자의 11월 회고

✔️ 지적 허영심은 데이터 과학자를 홀리는 캣닙이다. 잘 정의된 목적함수를 최적화하는 것이 데이터 과학자의 주된 업무지만, 사실 거시적인 프로젝트 단위에서 그런 식으로 일하는 데이터 과학자는 별로 없다. 나 역시 충동적이고 내면의 욕망에 따라 많이 움직인다. 지적 허영심을 자극하는 SOTA, 신기술, 대규모 데이터와 분산 훈련, 유려한 시각화, 이것들이 바로 나를 홀리게 하는 캣닙이다. 나는 이런 동기로 행동하는 것이 꼭 나쁘다고 생각은 안 한다. 오히려 나의 힘, 나의 원동력일 때가 많다. 다만 이런 노선과 비즈니스 성공과의 이격이 커질 때가 문제다. 그러니까 에고를 감시하는 나, 메타 인지가 동시에 필요한 셈이다. ✔️ The devil is in the domain knowledge. 이건 개인 차일 것 같은데, 나는 도메인 지식을 흥미 없어하는 편이다. 예를 들어 어떤 사용자가 어떤 행동 패턴을 보이는지 정말이지 관심 없다. 내가 통계학이라는 '방법론에 대한 학문'을 전공한 이유도 그것이 보편타당하게 적용 가능하기 때문이다. 모두 예상하겠지만 이런 편향된 태도는 나를 방법론의 스페셜리스트로 만들었지만 동시에 여러 문제를 야기했다. 이번 달도 고객이 그런 불만을 성토했다. 왜 본인이 얘기한 도메인 지식을 모델에 정확히 반영하지 않냐고. 실제로 그렇게 변경하니 압도적인 성능 향상이 나타났다. (그리고 주말 내내 수정 작업을 해서 그를 달랬다.) 내 경험 상 성격의 타고난 편향은 잘 고쳐지지 않는다. 오히려 가장 큰 도움이 되었던 조언은 '본인이 그런 편향을 가지고 있음을 받아들이고 의사 결정하세요'였다. 예컨대 천성이 낙관적인 사람이라면 그걸 감안해서 비관적인 시각에 좀 더 가중을 두고 의사 결정하라는 뜻. ✔️ 눈송이의 씨앗을 만드는 일이 가장 어렵다. 대기 중에 떠다니는 먼지 알갱이에 증기가 엉겨 붙어 눈 결정이 커지고 눈이 내리게 된다. 핵의 역할을 하는 먼지가 전혀 없다면 우리는 눈을 볼 수 없을 것이다. ML 실험을 할 때 나는 비슷한 경험을 한다. 데이터 가공과 전처리가 9할이라는 말을 들어봤을 것이다. 사실 전처리 이후 베이스라인이라고 부를만한 모델을 만들기까지는 더 멀리 가야 한다. 베이스라인은 단순히 동작하는 모델이 아니다. 어느 정도 합리적인 하이퍼 파라미터 범위와 성능까지 만들어내야 한다. 특히 딥러닝의 경우 대용량 데이터를 투입하기 전에 피저빌러티를 확보하는 이 작업이 고통스럽다. 먼지투성이 눈송이 씨앗을 만들고 나면, 하늘에 하얀 눈을 내리게 하는 건 훨씬 수월한 일이다. Let it snow. ⛄️

다음 내용이 궁금하다면?

지금 간편 가입하고 다음 내용을 확인해 보세요!

또는

이미 회원이신가요?

2022년 11월 29일 오후 12:52

 • 

저장 16조회 2,989

댓글 0