개발자

빅데이터 분석 실무

2024년 06월 22일조회 930

실무에서는 빅데이터 분석이 어떤 방식으로 이뤄지나요? 로그, IoT, 고객 데이터 등의 양은 수 Gb, 수천만행에 가까울거 같은데, 이런 데이터도 일반적인 방식으로 분석하나요? (파이썬, R 등) 회사에서 고성능 컴퓨팅이 가능한 자원을 갖고 있는지, 클라우드 기반의 플랫폼을 사용하는 경우 어떤 툴에 익숙해져있는것이 실무에서 도움이 될지 궁금합니다.

이 질문이 도움이 되었나요?
'추천해요' 버튼을 누르면 좋은 질문이 더 많은 사람에게 노출될 수 있어요. '보충이 필요해요' 버튼을 누르면 질문자에게 질문 내용 보충을 요청하는 알림이 가요.
profile picture
익명님의 질문

답변 1

인기 답변

남동욱님의 프로필 사진

플랫폼 회사, 즉 어느 정도 크기가 있고 트래픽이 많은 앱을 운영하는 회사에 가시게 되면 고객의 로그 데이터를 분석하게 됩니다. 이 때 데이터 플랫폼 팀의 데이터 엔지니어들의 첫번째 미션이 많은 트래픽의 빅데이터 로그를 어떻게 효율적으로 저장할 것인가 하는 것입니다. (엄청나게 많은 내용이 있는 부분이지만 분석의 영역에서 물어보셨으니 이 부분은 넘어가도록 하겠습니다.) 그렇게 데이터 파이프라인을 잘 구축하고 나면(잘 구축이라는 것이 완벽한 구축은 아닙니다. 데이터 엔지니어링은 규모에 따라, 필요에 따라 적절한 방법을 사용하는 것이 정답이라고 생각합니다) 데이터 분석가, 데이터 과학자들이 그 DB에 질의, 즉 쿼리(SQL)를 해서 데이터를 뽑아봅니다. 말씀하신대로 파이썬이나 R로 코딩하는 것이 EDA 수준에서 DB에 직접 질의하는 쿼리만큼 빠르게 데이터를 요리조리 볼 수 없기 때문에 여기서 SQL 역량이 가장 먼저 요구됩니다. 데이터 테이블을 살펴보며 원하는 데이터 세트를 만드는 작업까지 빠르게 하기 위해 SQL 역량이 요구됩니다 그 다음 만들어진 데이터 세트를 가지고 시각화, 통계분석, 모델링 등의 데이터 분석을 하고 싶다면 파이썬, R로 데이터를 가지고 와서 분석을 진행하게 됩니다. 그 후에 쿼리든, 파이썬 모델링이든 파이프라인을 주기적으로 돌릴 필요가 있다면 엔지니어링 작업을 하게 되는 것이지요! 결론적으로 회사에서는 업무에 필요한 만큼의 고성능 컴퓨팅 자원을 가지고 작업하는 것이 가능하고, 그것을 구축하는 것이 데이터 플랫폼 팀의 역할이자 역량입니다! 그리고 사용하는 사용자(데이터 분석가, 데이터 과학자)의 입장에서는 빅데이터를 저장하는 시스템(ex. 하둡 시스템) 내에서 데이터를 자유롭게 질의할 수 있고, 그 데이터를 가지고 그 다음 과정(분석, 시각화, 모델링 등)을 할 수 있는 역량이 필요하다고 할 수 있겠네요 (툴로 따지자면 태블로, 파이썬과 R의 여러 데이터 과학 라이브러리 등이 되겠습니다. 요즘에는 챗GPT를 잘 활용하는 것도 역량이라고 할 수 있겠습니다)

profile picture

익명

작성자

2024년 06월 22일

sql 쿼리를 통해 추출한 데이터를 정제하고 시각화, 모델 학습 등의 과정을 파이썬으로 처리하기 위해 어떤 플랫폼/사양을 시용하고 있나요? 고용량의 경우 메모리가 부족하거나 시간이 오래 걸린다는 문제가 있을꺼 같아 현업의 핸들링 방식이 궁금합니다.

지금 가입하면 모든 질문의 답변을 볼 수 있어요!

현직자들의 명쾌한 답변을 얻을 수 있어요.

또는

이미 회원이신가요?

목록으로
키워드로 질문 모아보기

실무, 커리어 고민이 있다면

새로운 질문 올리기

지금 가입하면 모든 질문의 답변을 볼 수 있어요!