배민 앱 리뷰 품질을 향상시킨 방법은? 머신 러닝 X 네트워크 탐지 모델
배민의 리뷰의 건전한 생태계를 유지하고, 리뷰 본연의 목적을 유지하기 위해, 허위 리뷰를 작성하는 행위를 효과적으로 막고, 정직한 리뷰를 제공하기 위해 준지도 학습 알고리즘(Deep SAD)과 소셜 네트워크 분석을 결합하여 리뷰 조작 업체를 탐지하는 모델에 관한 자세한 내용입니다. 상세 내용은 원문 필독 강추! 합니다. ^^ 🔎 탐지모델 🚩 머신 러닝 기반 이상 탐지 > 이를 통해 이상 회원인리뷰조작 회원을 우선 탐지하고, 소셜 네트워크 분석을 통해 회원과 가게의 연관 관계를 분석하여 최종적으로 리뷰 조작 업체(그룹군) 탐지 🔎 머신러닝 알고리즘 🚩 준지도 학습 알고리즘 중 초기에 라벨 데이터가 없어도 모델 구축 가능한 장점을 가진 Deep SAD(Semi-supervised Anomaly Detection) 알고리즘 🔎 리뷰 조작 회원 탐지 학습 방법 🚩 CNN 구조가 아닌 정형 데이터를 그대로 학습 가능하도록 일반적인 Autoencoder 구조로 변환하여 Deep SAD를 학습 🚩 기존에 룰셋으로 차단한 소량의 라벨 데이터와 라벨링되지 않은 데이터를 모두 사용한 학습 > 이를 통해 결과적으로 중심점에서 거리가 먼 리뷰 조작 가능성이 높은 회원 탐지 가능해짐. 🔎 리뷰 조작 업체 탐지 학습 방법 🚩 준지도 이상 탐지로 탐지한 이상 회원에 대해서만 네트워크 탐지 적용 🚩 리뷰 작성 가게 간 유사도가 높은 경우만 에지(edge)로 연결해주는 네트워크 구성 🚩 커뮤니티 탐지(community detection) 알고리즘 보다 더 강한 조건인 K-core 분해(decomposition)를 적용하여 그래프내 응집도가 높은 그룹만 추출 🔔 최종 리뷰 조작 업체 탐지 모델 🚩 준지도 학습 이상 탐지 알고리즘인 Deep SAD와 네트워크 탐지 방법을 결합한 리뷰 조작 업체 탐지 모델 🚩 회원별 피처 데이터를 집계하여 준지도 이상 탐지 알고리즘을 이용해 이상 회원을 탐지 🚩 이상 스코어가 높을수록 약한 조건의 네트워크 탐지를 적용하고, 이상 스코어가 낮은 회원들에 대해서는 강한 조건의 네트워크 탐지를 적용 🚩 두 가지 결과를 통합하여 탐지하게 되고, 검수 후 조치 🚩 조치를 통해 차단된 라벨데이터를 저장하여 모델 재학습 🚩 재학습을 통해 신규 모델을 생성하고 탐지하는 과정 진행