개발자
안녕하세요. 데이터 분야 직무를 희망하고 있는 대학교 3학년 1학기차 컴퓨터공학과 전공생입니다. 먼저 시간내어 글 읽어주셔서 정말 감사합니다. 공공데이터 API등을 사용해 혼자 간단한 프로젝트들을 경험해보면서 데이터를 수집하고 활용할 수 있도록 정제하는 것에 흥미를 느꼈습니다. 이에 데이터 엔지니어와 데이터 사이언티스트에 대해 더 조사해보면서 관련 직무로 취업하고 싶다는 생각을 하게 되었습니다. 하지만 지금까지 해온 경험과 지식이 데이터 엔지니어가 되기 위해 많이 부족하다고 생각해 제가 부족한 부분들과 앞으로 노력해야 할 부분들에 대해 질문드리고 싶습니다. ##현재 상황 1. 프로젝트 경험 - 데이터 엔지니어링(데이터 파이프라이닝 등) 관련 프로젝트 경험 없음 - AWS를 활용해 cloud server와 edge server를 구축하고, 공공데이터 application과의 API 통신을 통해 content caching을 구현하는 프로젝트를 진행했었습니다. 2. 알고리즘 - 백준 골드 4(C++)입니다. 반년 전 컴퓨터 알고리즘 수업을 들은 이후 꾸준히 풀고 있습니다. 3. 오픈소스 경험 - git과 github사용법만 알고, 진행했던 간단한 프로젝트들만 깃허브에 올려놓았는데, 크게 의미가 없는 것 같습니다. 오픈소스에 기여해본적은 없습니다. 4. 학과 공부 인서울 상위권 대학교 다니고 있고, 전체평점 3.97/4.5, 전공평점 4.08/4.5 입니다. 5. 언어 - python은 library 잘 활용하는 정도로만 이해하고 있고, SQL, Go 등의 언어에는 지식이 전무한 상태입니다. 이러한 제 상황을 바탕으로 앞으로의 계획에 대해 질문드리고 싶습니다. 1. 데이터 엔지니어로 취업하기 위해 어떠한 역량과 경험을 더 키워야 할 지 궁금합니다. 2. 프로젝트 경험을 쌓고 싶은데, 관련된 기술 스택을 어느 정도로, 또 어떤 방식으로 공부해야 효율적일지 감이 잘 잡히지 않습니다. 전문가분들께서 추천해주실 만한 책이나 강의가 있을까요? 3. 데이터 엔지니어 채용 공고를 살펴보면, 빅테크나 대기업의 경우 경력 n년 이상을 자격 요건에 걸어두는 경우도 종종 확인할 수 있었습니다. 신입으로 데이터 엔지니어 채용은 많이 힘든가요? (4). 데이터 엔지니어 관련해서 열심히 찾아보고 더 나아가 기여해 볼 만한 오픈소스들이 어떤게 있을지 궁금합니다. 꼭 모든 질문에 대한 답변이 아니더라도, 한두개 정도의 질문에 길지 않은 분량으로 답변 주셔도 저에게는 큰 도움이 될 것 같습니다. 전문가분들의 답변을 토대로 앞으로 더 열심히 노력해보겠습니다. 이상 긴 글 읽어주셔서 감사합니다.
답변 1
안녕하세요. 혼자서 공공데이터를 활용해 데이터도 처리해보시고 이 분야에 대한 열정이 남다르신 것 같아요. 저는 몇가지 해보면 좋을 것들을 소개드려 볼게요! 1. 더 큰 데이터 처리하기. 데이터 엔지니어라면 실시간성을 가진 데이터 파이프라인을 구축할 때가 많을 것 같은데요. 주기적인 데이터 전처리를 위해 Airflow , 실시간으로 대용량 데이터 처리를 위해 Kafka와 같은 서비스를 활용해서 말이죠? 지금까지 접하셨던 데이터가 얼마나 크신지는 모르겠지만 1TB 이상의 데이터를 한번 다뤄보시는 것도 좋을 것 같아요. 몇십만개 row를 가진 데이터를 다루다가 10배, 100배 이상의 데이터를 다루려면 작성하는 코드도 간결성보다는 효율성을 더 중요시해야 하기에 더 배울 점들이 많다고 생각해요. 2. 오픈소스 기여는 너무 조급해하진 않으셔도 될 것 같아요. '오픈소스 기여해야지!!' 하고 뭘 기여할까 찾는 것보다 작성자님께서 어떤 오픈소스 쓰다가 '하.. 이걸 왜 이렇게 해놨지?' (ㅋㅋ) 하는 포인트들에 있어서 기여해보시는게 더 재밌을 것 같아요. 3. (Optional) 백준 플래티넘까지 찍어보는 건 어떠세요? 저는 중급 알고리즘 (dijkstra, KMP 등등) + 구현 실력이 어느 정도 되었다 싶을때가 플래 찍었을때 같아요. 근데 지금 작성자님에게 우선순위가 높진 않을 것 같아서 optional 입니다 ㅎㅎ
정민교
영남대학교 통계학과, 컴퓨터 공학과 복수전공 • 2024년 05월 17일
혹시 1TB 이상의 데이터는 학부생입장에서 어떻게, 어디서 구하면 좋을까요?
백승윤
ML Engineer at Corca, Inc. • 2024년 05월 17일
public하게 공개된 데이터셋들이 여러개 있을것 같아요! 가장 먼저 생각난건 Criteo 사에서 제공한 클릭 데이터셋이네요! https://ailab.criteo.com/download-criteo-1tb-click-logs-dataset/
지금 가입하면 모든 질문의 답변을 볼 수 있어요!
현직자들의 명쾌한 답변을 얻을 수 있어요.
이미 회원이신가요?
지금 가입하면 모든 질문의 답변을 볼 수 있어요!