데이터를 보다 보면 내부에서 새로운 지수(index)를 만들 때가 있습니다. 한 주제를 시간의 변화에 따라 계속 추적하고 다른 지표와의 관계를 파악해야 할 때 지수를 만드는데요. 저자는 이 경우 어
데이터를 보다 보면 내부에서 새로운 지수(index)를 만들 때가 있습니다. 한 주제를 시간의 변화에 따라 계속 추적하고 다른 지표와의 관계를 파악해야 할 때 지수를 만드는데요. 저자는 이 경우 어떤 점을 고려해야 하는 지를 적었습니다. 기존에 보던 지표를 엮어 특정 지수를 만들어야 한다면 읽기 좋은 글입니다. 요약 1) 대표성 - 지수는 대표성이 있어야 합니다. 기업 내부 매출데이터처럼 전수를 토대로 만드는 경우라면 상대적으로 낫지만 온라인 외부 데이터를 통해 빈도에 따른 동향을 파악하는 지수를 만들어야 한다면 합계를 알 수 없는 경우가 많습니다. 내부에서 특정 동향을 보기 위해 만든 지수에 대표성이 얼마나 있는지(결측치가 얼마나 있는지)를 꼭 체크해야합니다. 2) 상대적인 거리 - 지수를 만들 때, 전체 추세 중 상대적인 값이 중요할 경우가 있다. 처음 수집된 절대값을 그대로 사용하기보다 상대적 비중으로 표기하기 위해 정규화,표준화,로그변환 등을 하는데 이 때를 조심해야 합니다. 원천 데이터 값과 변환 값의 상대적 값들의 거리를 보고 그대로 두는 게 나은 지 생각해 볼 필요가 있습니다. 상대적인 크기의 차이 값이나 비율이 어떤의미가 있는지 정확한 해석이 동반되지 않으면 지수를 받는 사람이 자의적으로 계산하기도 쉽습니다. 3) 인덱스의 불변성 - 지수를 만들고 운영하면서 이 지수를 구성하는 요소가 바뀌는지 생각해봐야 합니다. 항상 같은 값만 있는 지수의 결과만 나오는 게 좋은 질문도 있지만, 새로운 값이 지수에 시의성 있게 나와야 가치가 있는 인덱스도 필요합니다.