님의 프로필 사진

데이터 간의 거리를 측정하기 위해 기본적으로 많이 사용하는 9가지 방법을 정리한 글입니다. 데이터 분석가나 기계학습 엔지니어에게 데이터 거리(유사도) 측정은, 프로그래밍 분야에서 정렬 알고리즘만큼이나, 반드시 필요한 기본기 중 하나입니다. 상황과 데이터의 특성에 따라 적절한 거리 측정 방법을 사용하는 것이 중요한 만큼 다양한 기법을 알아 둘 필요가 있겠습니다. 이 글에서 소개하는 9가지 기법은 다음과 같습니다. 1) Euclidean distance 2) Cosine similarity 3) Hamming distance 4) Manhattan distance 5) Minkowski distance 6) Chebyshev distance 7) Jaccard index (similarity) 8) Haversine distance 9) Sorensen-Dice index (similarity) 참고로 이 글에서 소개되지 않은 기법 중 알아 두면 좋은 방법은 마할라노비스 거리 (Mahalanobis distance) 입니다. 이것도 많이 사용하는 기법이니 알아두면 좋겠네요.

9 Distance Measures in Data Science

Medium

9 Distance Measures in Data Science

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2021년 2월 3일 오전 7:32

댓글 0

    함께 읽은 게시물

    데이터 이력서 템플릿 + 작성 가이드를 사용해보세요.

    ... 더 보기

    < 트레바리 '오디티 빌더스' 클럽에 초대합니다 >

    1

    ... 더 보기

    요즘 '바이브 코딩'이라는 단어 자체가 유행이긴 하구나 싶습니다. 워낙 가타부타 말이 많아서요. 그래서 '근본'의 말을 들어보고 싶었습니다. 바이브 코딩의 창시자 안드레이 카파시는 역시 단순히 그 자체에 집중하기보다 '소프트웨어의 발전사'라는 큰 그림에서 바이브 코딩이 어떤 의미를 가지고, 어떻게 발전해 나가야 할지 보고 있었어요.

    ... 더 보기

    바이브 코딩 창시자 “유행하는 말들에 현혹되지 마세요.”

    퇴사한다했더니, 가지말라네요. 카운터 오퍼

    바이브 코딩 창시자 “유행하는 말들에 현혹되지 마세요.”

    어려움을 극복하는 힘

    ... 더 보기

    야근의 관성

    제가 한국에서 직장 생활을 시작하고 가장 먼저 배운 것은 아이러니하게도 야근이었습니다. 신입이었던 제게 야근은 선택의 문제가 아니었거든요. 선배들에게 야근은 너무나 당연한 루틴이었고, 저녁 5시가 되면 "퇴근 안 해?"가 아니라 "저녁 뭐 먹을까?"라는 질문을 던졌습니다. 누가 정해놓은 것처럼 부장님이 퇴근해야 과장님이, 과장님이 퇴근해야 대리님이, 대리님이 퇴근해야 비로서 저 같은 신입도 퇴근 생각을 할 수 있었습니다.

    ... 더 보기

     • 

    저장 15 • 조회 3,622


    < 왜 나는 그때 그 선배의 말을 듣지 않았을까? >​

    1. 모든 학습 곡선에는 같은 패턴이 있다. 어떤 분야의 초보자가 있다고 하자. 이제 몇 가지 지식을 배운다. 그럼 마치 그 분야를 완전히 이해한 것처럼 느낀다. 누구나 0점에서 80점까지는 쉽다. 문제는 80점부터다. 전문가의 영역이다.

    ... 더 보기