데이터 간의 거리를 측정하기 위해 기본적으로 | 커리어리

데이터 간의 거리를 측정하기 위해 기본적으로 많이 사용하는 9가지 방법을 정리한 글입니다. 데이터 분석가나 기계학습 엔지니어에게 데이터 거리(유사도) 측정은, 프로그래밍 분야에서 정렬 알고리즘만큼이나, 반드시 필요한 기본기 중 하나입니다. 상황과 데이터의 특성에 따라 적절한 거리 측정 방법을 사용하는 것이 중요한 만큼 다양한 기법을 알아 둘 필요가 있겠습니다. 이 글에서 소개하는 9가지 기법은 다음과 같습니다. 1) Euclidean distance 2) Cosine similarity 3) Hamming distance 4) Manhattan distance 5) Minkowski distance 6) Chebyshev distance 7) Jaccard index (similarity) 8) Haversine distance 9) Sorensen-Dice index (similarity) 참고로 이 글에서 소개되지 않은 기법 중 알아 두면 좋은 방법은 마할라노비스 거리 (Mahalanobis distance) 입니다. 이것도 많이 사용하는 기법이니 알아두면 좋겠네요.

9 Distance Measures in Data Science

Medium

2021년 2월 3일 오전 7:32

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!