❝AI/ML 테크 블로그 포스트 소개❞ 데이터 과학자로 실무에서 일할 때 가장 큰 어려움 중 하나가 레이블이다. 언어 모델링이나 수요 예측처럼 축복받은 경우가 아니라면 레이블은 많은 시간과 비용을
❝AI/ML 테크 블로그 포스트 소개❞ 데이터 과학자로 실무에서 일할 때 가장 큰 어려움 중 하나가 레이블이다. 언어 모델링이나 수요 예측처럼 축복받은 경우가 아니라면 레이블은 많은 시간과 비용을 들여 생성해야 한다. 또 다른 문제는 레이블에 노이즈가 존재한다는 점이다. 신용 카드 회사에서 일할 때 몇 개월 이내 결혼할 사람을 예측해야만 했다. 레이블을 매길 때, 카드로 예식장 계약금을 납입한 사람은 아마 확실하겠고 그 외에 '스드메'나 청첩장 지불 또한 힌트가 되겠다. 그러나 이런 결제 내역 없이 결혼하는 사람이 부지기수다. 레이블에 대한 신뢰도 문제가 있다. 이럴 때 '약한 지도 학습'(weak supervision) 방법을 고려해 볼 수 있다. 1) 위와 같이 사람의 판단 휴리스틱을 담은 레이블링 함수(= LF)를 여럿 만든다. 예를 들면 if 예식장 결제 then '결혼'과 if 나이 3백만 원 then '결혼' 등 이런 식으로 말이다. 🤵👰 2) 이렇게 구성한 다수의 LF를 데이터셋에 적용하면 서로가 같은 레이블로 판단하기도 하고 결과가 상충되기도 한다. 다수결로 레이블을 결정해도 좋겠지만 보다 과학적으로 해결하자. LF 결과에 내재된 확률 분포로 생성 모델을 만들고 이걸로 다시 레이블 확률 벡터를 산출한다. 🤔 3) 이렇게 나온 소프트 레이블을 가지고 원래 하던 대로 분류(예측) 모델을 만들면 된다. 🧠 이 과정을 돕는 파이썬 라이브러리가 스탠퍼드 AI 랩에서 만든 'Snorkel'이다. (내가 알기론) '약한 지도 학습'의 국내 적용 사례를 아직 찾아보기 어려운데 통계적 기법의 실무 적용을 항상 고민해오는 엔씨소프트 쪽에서 귀중한 경험담을 2020년 공유해주었다. 게임 부정행위 사용자를 분류하는 문제 또한 보기만 해도 레이블링이 골치 아플 것 같다.