Community

이라는 책에 데이터를 분석할 때 피해야 할 10가지 함정에 대한 장이 있는데요. 그 중에 3번과 4번이 아웃라이어(outlier, 이상치)들을 어떻게 분석할 것인지에 대한 내용입니다. 아웃라이어를

이라는 책에 데이터를 분석할 때 피해야 할 10가지 함정에 대한 장이 있는데요. 그 중에 3번과 4번이 아웃라이어(outlier, 이상치)들을 어떻게 분석할 것인지에 대한 내용입니다. 아웃라이어를 배제하는 것도 위험하고 포함시키는 것도 위험하다는, 얼핏 들어서는 모순이 있어보이는 이야긴데요. 책 내용 중 일부를 같이 봅시다. 3. 열외의 사용자들을 배제하는 것: 어떤 웹사이트를 하루에 천 번 이상 방문하는 사람들은 웹사이트의 열혈 팬일 수도 있지만 콘텐츠를 수집해야가는 검색 봇일지도 모른다. 어떤 경우든 이들을 무시하는 것은 실수일 수 있다. 4. 열외의 사용자들을 포함시키는 것: 하루에도 천 번 이상 웹사이트를 방문하는 사람들은 예상치 못했던 것을 알려줄 수도 있으므로 정성적인 관점에서는 흥미로울 수 있지만 일반 모델을 구축할 때는 도움이 되지 않는다. "데이터 기반 제품을 구축 할 때는 이런 사용자들을 배제해야 합니다. 그렇지 않으면 웹사이트의 '추천' 기능에서 하드코어 팬들이 좋아하는 아이템을 모든 사람들에게 추천할 겁니다" 그러니까 데이터를 볼 때에, 이상치를 포함시키는 것도 위험하고(이상치가 전체 데이터 트랜드를 왜곡할 수 있음), 이상치를 배제하는 것도 실수일 수 있다(이상치가 중요한 정보를 가지고 있을 수 있음)는 것이죠. 이런 모순적인 상황에서 우리가 데이터를 한 쪽에 치우치지 않고 잘 확인해 볼 수 있는 방법은 무엇일까요? 데이터의 요약 통계량(평균, 분산, 중위수)만 확인할 것이 아니라 전체 데이터의 분포를 확인해보는 것일겁니다. 분포를 확인하는 가장 좋은 방법은 물론 전체 데이터를 이용한 분포도를 그려보는 것이겠지만, 아웃라이어와 요약 통계량을 한 눈에 확인해볼 수 있는 박스플롯도 굉장히 자주 사용되는 시각화 방법론 중 하나입니다. '박스 플롯에 대하여'에 정말 박스 플롯에 대해 할 수 있는 모든 이야기들이 담겨있습니다. 박스플롯을 이용한 시각화를 제대로 해보고 싶은 분이라면 정독을 권합니다.

알림

알림이 없습니다