데이터 분석 및 머신러닝 포트폴리오를 준비하는 분들에게 좋은 데이터셋은 필수입니다!
개인 프로젝트, 사이드 프로젝트로 데이터 분석과 머신러닝 프로젝트에 활용할 수 있는 공개 데이터셋 저장소 리스트를 공유드립니다 🙂
(해외 사이트에 대한 출처는 『핸즈온 머신러닝 2판(OREILLY, 박해선 옮김)』 을 참고하였습니다.)
[해외]
- UC얼바인 머신러닝 저장소 (http://archive.ics.uci.edu/ml)
- 캐글 데이터셋 (http://www.kaggle.com/datasets)
- 아마존 AWS 데이터셋 (https://registry.opendata.aws)
- 카네기 멜론 대학교 통계학과 공개 데이터셋 저장소 (http://lib.stat.cmu.edu/datasets/)
- 공개 데이터 저장소가 나열되어 있는 메타포털
- 데이터 포털 (http://dataportals.org)
- 오픈 데이터 모니터 (http://opendatamonitor.eu)
- 퀀들 (http://quandl.com)
[국내]
- 공공데이터포털 (https://www.data.go.kr/)
- 서울열린데이터광장 (https://data.seoul.go.kr/)
- e-나라지표 (https://www.index.go.kr/)
- 국가통계포털 (https://kosis.kr/index/index.do)
- 데이콘 (https://dacon.io/)
아직 실무를 경험하지 못한 학생분들도 공개되어 있는 풍부한 ‘실제’ 데이터들을 가지고 개인 프로젝트를 진행한다면 재밌는 결과들을 많이 얻을 수 있을 것 같습니다.
위의 목록 이외에도 좋은 공개 데이터 저장소가 있다면 얼마든지 공유해주세요 🙂