아웃라이어 탐지를 위한 기법 네가지 데이터분석 | 커리어리

아웃라이어 탐지를 위한 기법 네가지 데이터분석 분야에서 아웃라이어라는 건 어떤 데이터 집단이 가진 특성에서 크게 벗어나는 관측 데이터를 의미합니다. 따라서 아웃라이어를 탐지하려면 대상 집단이 가진 특성을 가장 잘 표현하는 데이터 모델을 정의하는 작업이 먼저 필요합니다. 만약 해당 집단이 평균을 중심으로 정규 분포 형태로 퍼져있다면 평균과 분산만으로도 아웃라이어를 충분히 탐지할 수 있을 테고, 좀 더 복잡한 조건에 영향을 받는다면 그에 맞는 회귀 모델이나 트리 모델 등을 이용해서 모델을 만든 후 해당 모델의 예측치에서 크게 벗어나는지를 확인하는 방식을 사용해야겠죠. 이 글에서는 아주 기본적으로 많이 사용하는 방법 4가지만을 소개하고 있지만, 실상 어떤 모델링 기법을 사용하던 정상적인 데이터들을 잘 표현하는 모델을 먼저 만들고 그 모델의 기대값과 실제 관측된 데이터를 비교해서 그 차이가 큰 데이터를 아웃라이어로 판단한다는 기본 개념은 모두 동일합니다.

Four Techniques for Outlier Detection - KDnuggets

KDnuggets

2021년 2월 10일 오후 1:06

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!

현직자들의 '진짜 인사이트'가 담긴 업계 주요 소식을 받아보세요.

커리어리 | 개발자를 위한 커리어 SNS