분석을 위한 데이터 파이프라인을 짜다 보면 고 | 커리어리

분석을 위한 데이터 파이프라인을 짜다 보면 고민하게 되는 부분 중의 하나가 '어떤 툴을 사용할 것인가' 입니다. 많은 경우 AWS나 GCP 같이 사용중인 클라우드에 있는 각종 서비스를 조합해서 파이프라인을 구성하지만 이런 경우에도 클러스터나 서버만 빌리고 툴은 따로 설치하거나 아예 일부 구간의 경우 Snowflake나 Segment와 같은 외부 툴을 이용하는 경우도 흔하죠. 파이프라인 구축에 사용할 있는 리소스가 한정적인 초기 스타트업이거나, (ML 모델의 경우) 최적화에 대한 필요성이 적은 경우는 올인원 플랫폼에 의지하는 것이 나은 선택일 수도 있겠지만, 서비스가 커지고 데이터를 적극적으로 활용하게 될 수록 분석과 처리에 대한 유연성이 중요해지거니와 최근 데이터 및 ML관련 각종 라이브러리의 발전 속도가 빨라지는 추세를 봤을 때 어느 시점에서는 올인원 플랫폼을 벗어나 좀 더 커스터마이징이 가능하고 각각의 단계에 최적화 된 BoB(Best of Breed) 툴을 사용할 수 밖에 없다는 것이 이 글의 요점입니다. 또한 쿠버네티스와 같은 프레임워크로 인해 라이브러리 간의 조율도 훨씬 쉬워졌기 때문에 시장에서도 결국 BoB툴들이 올인원 플랫폼에 대한 승리를 거둘 것이란 분석도 더해져있네요.

데이터 과학에서 왜 All-in-One 플랫폼보다 Best-of-Breed가 더 나은 선택일까?

Hanbit

2020년 12월 7일 오전 5:47

댓글 0

함께 보면 더 좋은

[데이터 사이언스를 배우는 가장 좋은 방법은?] 비통계학, 비컴공 출신으로 데이터 업계에 뛰어들고 싶은 분들이라면 한번쯤 온라인 코스와 부트캠프를 기웃거려보신 적이 있을 겁니다. 그런데 사실 커리큘럼을 뜯어보면 대부분의 코스들은 대동소이하죠. 파이썬(또는 R) 기초를 익히고, 데이터프레임이나 시각화 관련 패키지의 사용법을 익히고, 간단한 회귀모델이나 머신러닝 모델을 (메뉴얼대로) 만들어보는 정도입니다. 이런 기초는 분명 아무것도 모르는 초보자 입장에선 한번은 거쳐야 하는 과정이지만, 사실 이것만으로는 여러분이 실무에서 마주칠 문제를 해결하기는 정말 어렵습니다. 현업의 데이터는 온라인 코스에서 배우는 것보다 훨씬 크고 지저분하며, 전처리에 사용되는 코드는 훨씬 복잡할 것이고, 어쨌거나 돌아가는 코드를 짜면 그만이었던 학생시절과는 달리, 깔끔하고 효율적인 코드를 통해 비용을 줄이고 협업을 효율화하는 것이 (대부분의 경우) 멋진 통계적 모델을 만드는 것보다 훨씬 더 중요해지니까요. 그래서 오늘 소개드릴 글의 필자는 데이터 사이언스에 입문하는 가장 좋은 방법으로 미디엄에 올라온 각종 포스팅을 읽어볼 것을 추천하고 있습니다. 여기에는 실제 매일 데이터를 만지는 사람들이 아니면 알기 힘들 자잘한 팁과 노하우들이 그대로 녹아 있어서, 흔한 온라인 코스보다도 좀 더 실무에 가까운 앎을 얻을 수 있다고 말하고 있네요. 그리고 고맙게도 주제별로 읽어볼 만한 좋은 포스팅들도 같이 추천하고 있습니다. 돌이켜보면, 저도 아무것도 몰랐던 쌩초보 시절 이후에는 대부분 각종 개발문서나 스택 오버플로우를 통해 배운 지식이 가장 많은 느낌입니다. 아무리 좋은 교육과정이라도 자기 스스로 이게 왜 필요한지 실감하고 지식을 어떻게 활용해야하는지 알기 위해서는 '경험'이라는 요소가 필요할 수 밖에 없으니까요. 그런 의미에서 개인적으로 미디엄 포스팅보다도 좋은 데이터 사이언스 학습 방법은, 일단 용감하게 부딫혀보는 것이 아닐까 생각합니다.

The Best Data Science Course is this Compilation of Medium Top Articles

Medium

추천 프로필

현직자에게 업계 주요 소식을 받아보세요.

현직자들의 '진짜 인사이트'가 담긴 업계 주요 소식을 받아보세요.

커리어리 | 일잘러들의 커리어 SNS