데이터 과학자가 자주 범하는 10가지 통계적 실수
데이터 과학자가 범하는 통계적 실수 TOP 10을 정리한 아티클입니다. (모델을 만드는 데이터 과학자 관점입니다!) Solution과 예시가 나와 있는 좋은 글입니다! 공감가는 부분과 배워야할 부분이 많아 공유드립니다 🙂 [ ⭐ 가장 많이 범하는 10가지 통계적 실수 ] 1. 목적함수(objective function)를 정확하게 이해하지 않는다. (최적화의 반대급부로 꼭 필요!) 2. 데이터 탐색을 통한 가설을 세우지 않는다. (어떤 모델이 가장 좋을지 데이터를 봐야한다!) 3. 아웃라이어를 골라내기 위한 EDA를 하지 않는다. (데이터를 제발 봐라!) 4. naive baseline model이 없다. (비교대상이 되는 zero-intelligence 모델 필요!) 5. out-sample 테스팅이 부정확하다. (실제 비즈니스 샘플과 상황에서 테스트 필요!) 6. test data에 train data가 섞여들어간다. (overtrain → overftting) 7. random sampling cross-validation의 함정 (test set도 섞여 성능이 부풀려짐!) 8. 모델이 production 되는 시점의 데이터를 고려하지 않는다. 9. 미묘한 overtraining (한 데이터셋을 정교하게 할수록) 10. “데이터가 더 필요해” 라는 잘못된 생각 저도 모델을 사용할 때 많이 참고하고, 실제로 적용해봐야 할 내용들이 많은 것 같습니다. 더 디테일하게 모델을 잘 다루는 사람이 되어야겠다는 생각이 드네요!