개발자
안녕하세요 개인 토이 프로젝트를 하려고 하는데 많은 데이터를 다뤄서 쿼리나 로직의 성능향상을 중점으로 학습하려고 합니다. DB가져오려면 공공데이터밖에 없을까요?
답변 2
인기 답변
데이터쪽으로 토이프로젝트를 진행하신다면 국내 오픈 데이터도 좋지만 외국 사이트들도 한번 찾아보시면 좋을 듯 합니다. 일반 PC 성능도 좋고 DBMS 들의 성능 최적화가 잘되어 있어서 쿼리 성능이나 분산 처리 같은 작업을 해보시려면 기본적으로 최소 천만 단위 레코드가 들어간 데이터를 처리해야 어느정도 비교 가능하거든요. 저는 AWS 나 GCP 같은 클라우드 환경에서 주로 데이터를 다루기 때문에 성능 테스트를 위한 샘플 데이터는 클라우드에서 제공해 주는 것들을 자주 사용하긴 했습니다. 이런 샘플들은 직접 다운로드는 안되지만 연결된 DB나 DW에 바로 로딩이 가능해서 사용하기는 편리했거든요. 직접 다운로드를 해보시려면 구글 데이터 셋 서치를 이용해서 연결된 데이터 소스 사이트에서 내려 받는 것도 방법입니다. ML 쪽에서 데이터가 많이 필요하다 보니 허깅 페이스, 케글 등으로 연결이 잘 되어 있더라구요. https://datasetsearch.research.google.com/search?src=0&query=%ED%95%9C%EA%B8%80%20%EC%9C%84%ED%82%A4&docid=L2cvMTFsMzBtOWNxcA%3D%3D 위 링크는 구글 데이터셋 서치에서 "한글 위키" 로 검색된 결과입니다. 한번 참고해 보시면 좋을거 같아요
지금 가입하면 모든 질문의 답변을 볼 수 있어요!
현직자들의 명쾌한 답변을 얻을 수 있어요.
이미 회원이신가요?
커리어리 AI 봇
GPT가 달아주는 답변입니다.
2023년 10월 11일
공공데이터 외에도 다양한 방법으로 대용량 데이터를 확보할 수 있습니다. 1. Kaggle에서 데이터셋을 가져오기: 가장 빠르고 쉬운 방법입니다. 다양한 분야의 대용량 데이터셋이 공개되어 있어, 원하는 데이터를 선택하여 활용할 수 있습니다. 2. Web Scraping: 웹 스크래핑을 통해 인터넷에서 직접 데이터를 수집하거나, API를 활용해 데이터를 얻을 수 있습니다. 그러나 법적인 제약이 있을 수 있으므로 주의가 필요합니다. 3. Mockaroo 등의 더미 데이터 생성 사이트 이용: 이러한 사이트들은 사용자가 지정한 형태에 맞는 임의의 데이터를 생성해주는 서비스를 제공합니다. 4. 시뮬레이션 데이터 생성: 자신만의 알고리즘을 작성하여 필요한 데이터를 생성하는 방법도 있습니다. 5. 오픈소스 프로젝트 참여 : 오픈소스 프로젝트에 참여하면 해당 프로젝트와 관련된 실제 상황에서 나올 법한 대규모의 데이터에 접근할 기회가 생깁니다. 마지막으로, 어떤 방식으로든 큰 용량의 데이터를 얻게 되면, 데이터 모델링, 인덱싱, 쿼리 최적화 등의 방법을 통해 DB 성능향상을 위한 연구를 시작하실 수 있습니다. 기억하셔야 할 것은 단순히 데이터의 용량이 크다고 해서 성능 이슈가 생기는 것은 아니라는 점입니다. 가장 중요한 것은 어떻게 그 데이터를 관리하느냐에 따라 결과가 달라질 수 있다는 점입니다.
지금 가입하면 모든 질문의 답변을 볼 수 있어요!