Gauss Rank Scaler 파이썬 패키지 릴리즈

느닷없이 저의 오래된 'Gauss Rank Scaler' 파이썬 프로젝트를 Mark Pinches라는 친구가 파이썬 패키지로 직접 만들어 배포까지 해주었군요. 딥러닝의 경우 수치형 피쳐가 정규 분포를 따라야 학습이 안정적이기 때문에 피쳐 분포를 표준 정규 분포에 가깝도록 변환해주는 모듈입니다. 이 테크닉은 캐글 그랜드 마스터 Michael Jahrer가 Porto Seguro의 안전 운전 예측 대회에서 사용하고 우승해서 유명해졌습니다.(https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/discussion/44629#250927) 이것은 scikit-learn의 PowerTransformer 특히 'yeo-johnson' 변환(https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PowerTransformer.html)과 유사합니다. yeo-johnson이 모수적인 기법인 반면에 제가 구현한 Gauss Rank Scaler는 순위 통계량에 의거하는 비모수적 기법이어서 좀 더 정규분포에 가깝게 변환해 줍니다. 반면에 같은 이유로 Out-of-Distribution 샘플에 취약합니다. scikit-learn에 호환되게끔, 그리고 멀티 프로세싱을 지원하도록 구현했습니다. 태뷸러 데이터에 딥러닝을 시도하실 때 애용(?) 부탁드립니다.

gauss-rank-scaler

PyPI

gauss-rank-scaler

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2022년 12월 23일 오전 4:42

댓글 0