개발자

빅데이터 분석/머신러닝 플랫폼

2024년 06월 21일조회 45

빅데이터 분석에 관심이 있습니다. 일반적으로 데이터 분석이라고하면 R이나 파이썬을 이용해 시각화와 통계량 등을 추출하는데 빅데이터(수GB 이상)의 경우도 동일하게 수행하나요? 고성능 컴퓨터를 이용하는지 혹은 클라우드 기반의 분석 플랫폼이 있는지 궁금합니다. 컴퓨터를 사용하는 경우 사양은 얼마나 되어야할까요..

이 질문이 도움이 되었나요?
'추천해요' 버튼을 누르면 좋은 질문이 더 많은 사람에게 노출될 수 있어요. '보충이 필요해요' 버튼을 누르면 질문자에게 질문 내용 보충을 요청하는 알림이 가요.
profile picture
익명님의 질문

답변 2

문종호님의 프로필 사진

안녕하세요~ 보통은 데이터 분석을 위한 인프라를 가지고 시작하는게 일반적입니다. 클라우드 플랫폼 사용이라.. 물론 플랫폼이 있을거같지만 사용한다고 하면 비용이 장난 아닐거같네요.. 저도 접해보진 않았지만 보통은 워크스테이션급으로 머신러닝을 진행하는거같습니다. 클라우드 라고 하면 GPU서버정도가 아닐까싶네요. 용량이 엄청난 데이터를 처리할때는 클러스터를 구성해서 진행할것으로 예상이 됩니다!

triplehoon님의 프로필 사진

왠만한 분석은 일반적인 랩탑에서 다 해결 가능합니다. 느리게 오래 돌리는 건 알고리즘 문제지, 실무가서도 마찬가지라 봅니다. 정말 비싸고 고급진 분석을 돌리는 사람도, 본인 랩탑에서 충분히 돌린 후에 계획을 짜서 서버로 올리지 서버에서 바로 돌리는 사람은 없습니다. 다 돈이고 시간이니깐요.

지금 가입하면 모든 질문의 답변을 볼 수 있어요!

현직자들의 명쾌한 답변을 얻을 수 있어요.

또는

이미 회원이신가요?

AI 답변
커리어리 AI 봇 프로필 이미지

커리어리 AI 봇

GPT가 달아주는 답변입니다.

2024년 06월 21일

빅데이터의 경우, 일반적인 데스크탑 컴퓨터로는 데이터의 크기와 복잡성을 처리하는 것이 어려울 수 있습니다. 이러한 빅데이터를 처리하고 분석하기 위해선 분산처리 시스템이 필요하게 됩니다. 분산처리 시스템은 Hadoop, Spark 등이 있으며 이 워크로드들을 처리할 수 있는 고성능 컴퓨터 클러스터나 클라우드 기반 플랫폼을 사용합니다. R과 파이썬은 빅데이터 분석에도 널리 사용되지만, 데이터의 크기가 어느 정도되면 직접 코드를 작성해서 분석하는 것 보다는 이런 분산 처리 환경에서 제공하는 도구를 사용하는게 일반적입니다. 클라우드 기반 플랫폼으로는 AWS의 EMR(Elastic MapReduce), Google Cloud의 Dataproc 같은 서비스가 있습니다. 이 서비스들은 요금제에 따라 병렬처리와 스토리지 옵션을 조정할 수 있어서 유연한 활용이 가능합니다. 개별 컴퓨터 사양에 대해 말씀드리면, 데이터 크기와 처리 속도 등 여러 변수에 따라 달라질 수 있지만, 일반적으로 높은 RAM 용량(16GB 이상)과 충분한 스토리지 공간(SSD 추천), 그리고 여러 코어를 가진 CPU가 필요합니다. 머신러닝의 경우도 비슷하며, 특히 딥러닝 같은 경우는 대량의 데이터와 고성능의 GPU가 필요하기도 합니다. NVIDIA의 CUDA 같은 프로그래밍 환경을 사용해서 GPU를 활용하는 것이 일반적입니다. 물론 이 역시 클라우드 서비스로 제공되는 경우가 많습니다. AWS의 Sagemaker나 Google Cloud의 AI Platform 등이 그 예입니다.

목록으로

지금 가입하면 모든 질문의 답변을 볼 수 있어요!