Top 20+ DE Project Ideas for Beginners

원제: Top 20+ Data Engineering Project Ideas for Beginners with Source Code [2024]


업계에서 요구하는, 대부분의 데이터 엔지니어 기술을 포괄하고, 이해하기 쉬운 아키텍처 워크플로를 갖춘 20개 이상의 최고의 데이터 엔지니어링 프로젝트를 추천합니다. 좀 더 상세한 내용은 원문을 참고하시기 바랍니다.

 

1) Smart IoT Infrastructure

  • 초보자들을 위한 30개의 IoT 프로젝트들로 스마트 IoT 인프라 구축을 위한 일반적인 아키텍처를 살펴보고, 수집되는 대량의 데이터를 빠른 속도로 처리하는 것을 배웁니다

  • 기술스택: Apache Spark, Apache Kafka, Apache HBase

  • 소스코드: https://www.projectpro.io/projects


2) Aviation Data Analysis

  • 항공 데이터를 통해 API에서 스트리밍 데이터를 가져오고, 데이터를 정리하고, 데이터를 변환하여 인사이트를 얻고, 대시보드에서 데이터를 시각화하는 방법을 배웁니다.

  • 기술스택:  Apache NiFi, Kafka, HDFS, Hive, Druid, AWS QuickSight

  • 소스코드: https://www.projectpro.io/project-use-case/real-time-big-data-pipeline-aws-quicksight


3) Event Data Analysis

  • 뉴욕시 기관들이 제공하는 무료공공데이터를 통해서, 뉴욕시에서 발생하는 사고를 분석를 위해 데이터 추출, 데이터 정리, 데이터 변환, 탐색적 분석, 데이터 시각화, 데이터 모델링, 클라우드에서 이벤트 데이터의 데이터 흐름 오케스트레이션을 포함하는 데이터 엔지니어링 파이프라인을 구축하는 엔드투엔드 빅 데이터 프로젝트입니다.

  • 기술스택: Kibana, PySpark, AWS ElasticSearch

  • 소스코드: https://github.com/PoulomiTarania/Bigdata_with_AWS


4) Data Ingestion with Google Cloud Platform

  • Google 클라우드 플랫폼(GCP)에서 실시간 스트리밍 및 일괄 로드를 통한 데이터 수집 및 처리 파이프라인을 포함하며, 학술 및 연구 목적으로 사용되는 Yelp 데이터 세트를 처리하는 프로젝트입니다.

    구글 클라우드 데이터 플로우를 사용한 SQL을 통한 데이터 수집

  • 기술스택: Apache AirFlow, Apache Beam, GCP- Google Data Studio, Google BitQuery, Google Cloud Storage, Google Cloud Dataflow, Google Cloud Pub/Sub

  • 소스코드: https://www.projectpro.io/project-use-case/apache-beam-pipeline-for-cleaning-batch-data-using-cloud-dataflow-and-bigquery


5) Data Visualization

  • 데이터 엔지니어의 원활한 분석을 위해 데이터를 시각화해야 하는 방법을 배우는 프로젝트로,

    워크플로우 관리를 위한 Apache Airflow, Hadoop을 사용하여 Wikipedia 아카이브를 처리하고, 데이터 저장을 위한 Amazon S3, 데이터 전처리를 위한 Hive, 트렌드 및 분석 표시를 위한 제플린 노트북을 활용하세요

  • 기술스택: Apache Hadoop, Apache Zeppelin, Apache Airflow

  • 소스코드: https://github.com/skyler-myers-db/Wikipedia-Big-Data-Analysis


6) Data Aggregation

  • 여러 소스에서 데이터를 수집하고 이를 통해 통찰력 있는 결론을 도출하는 데이터 집계를 통해 실시간 데이터 처리가 무엇인지, 빅데이터 프로젝트의 아키텍처와 데이터 흐름을 배울수 있습니다.

  • 기술스택: Apache Spark, Spark SQL, Python, Kafka

  • 소스코드: https://github.com/Tirth27/Real-time-analytics-with-spark-streaming


7) Building a web-based Surfline Dashboard

  • 이 프로젝트는 서퍼들을 위한 웹 기반 대시보드를 구축하여 전 세계 인기 서핑 장소의 서핑 상황에 대한 실시간 정보를 제공하는 것으로, Surfline API에서 서핑 데이터를 수집하고 처리하여 Postgres 데이터 웨어하우스에 저장하는 데이터 파이프라인을 만드는 것이 목표입니다

  • 기술스택: AWS, PostgreSQL, Python, Surfline API

  • 소스코드: https://github.com/andrem8/surf_dash


8) Log Analytics Project

  • 데이터 엔지니어링 및 분석 기술을 적용하여 서버에 가장 자주 접속하는 호스트, 서버와 가장 많은 네트워크 트래픽을 유발하는 국가 또는 도시 등 서버 로그 데이터를 수집하고, 전처리한 다음, 데이터 흐름 관리 프레임워크 Apache NiFi를 사용하여 안정적인 분산 스토리지 HDFS에 저장하고, Apache Spark를 사용하여 데이터를 정리하고 변환하는 작업이 포함된 프로젝트입니다

  • 기술스택: Apache Kafka, AWS EC2, Apache NiFi, Spark Streaming, Cassandra, Docker

  • 소스코드: https://www.projectpro.io/project-use-case/real-time-log-processing-using-streaming-architecture


9) COVID-19 Data Analysis

  • 코로나19 데이터를 전처리하고 병합하여 실시간 코로나19 API 데이터 집합 분석에 대비하는 방법을 배웁니다. NiFi를 사용하여 Kafka 토픽과 HDFS로 푸시하고, Pyspark cluster에서 처리 및 분석하여 Hive database로 수집한 후 Tableau 및 Quicksight와 같은 시각화 도구를 사용하여 데이터 플롯으로 게시됩니다

  • 기술스택: NiFi, PySpark, Hive, HDFS, Kafka, Airflow, Tableau and AWS QuickSight

  • 소스코드: https://www.projectpro.io/project-use-case/build-a-data-pipeline-based-on-messaging-using-spark-and-hive


10) Movielens Data Analysis for Recommendations

  • 이 프로젝트는 사용자의 선택에 따라 선호도를 예측하거나 필터링하는 추천시스템 사례로 Netflix, Amazon Prime, Hulu, Hotstar 등과 같은 유명 스트리밍 서비스에서 과거 시청 패턴을 기반으로 사용자에게 영화를 추천하기 위해 사용하는 영화 추천 시스템에 초점을 맞춥니다. 최종 추천이 이루어지기 전에 복잡한 데이터 파이프라인이 여러 소스에서 추천 엔진으로 데이터를 가져옵니다.

  • 기술스택: Databricks, Spark SQL, Microsoft Azure- Azure Data Lake, Azure Data Factory, Azure Blob Storage

  • 소스코드: https://www.projectpro.io/project-use-case/analyse-movie-ratings-data


11) Retail Analytics Project Example

  • 소매점의 데이터 세트를 분석하여 의사 결정 프로세스를 개선함으로써 성장을 지원하는 것을 목표로 하는것으로, AWS EC2 인스턴스와 도커 컴포저를 사용하고, HDFS와 Sqoop를 활용하는 프로젝트입니다

  • 기술스택:  SQL, Bash, AWS EC2, Docker, MySQL, Sqoop, Hive, HDFS

  • 소스코드: https://www.projectpro.io/project-use-case/retail-analytics-project-example


12) Real-time Financial Market Data Pipeline with Finnhub API and Kafka

  • 이 프로젝트는 핀허브의 실시간 금융 시장 데이터 API를 사용하여 스트리밍 데이터 파이프라인을 구축하는 것을 목표로 합니다

  • 기술스택: Apache Kafka, Apache Spark, Python, Kubernetes, Grafana

  • 소스코드: https://github.com/RSKriegs/finnhub-streaming-data-pipeline


13) Real-time Music Application Data Processing Pipeline

  • 이 프로젝트는 사용자가 온라인에서 음악을 검색하고, 듣고, 공유할 수 있는 가짜 플랫폼인 Streamify의 데이터를 사용하여 실시간 데이터를 수집하여 2분마다 데이터 레이크에 저장하는 데이터 파이프라인을 구축하는 것이 목표입니다

  • 기술스택: Apache Kafka, Apache Spark, GCP, Docker, Apache Airflow, Terraform

  • 소스코드: https://github.com/ankurchavda/streamify

     

14) Shipping and Distribution Demand Forecasting

  • 초보자를 위한 최고의 데이터 엔지니어링 프로젝트 중 하나로, 물류회사의 수요 데이터를 사용하여 다양한 고객, 제품 및 목적지에 대한 미래 수요를 예측하고자 합니다

  • 기술스택: Azure SQL, Azure Machine Learning, Azure Data Factory, Power BI, Azure Blob Storage

  • 소스코드: https://github.com/Azure/cortana-intelligence-shipping-and-distribution-forecasting/blob/master/Technical%20Deployment%20Guide/Technical-Solution-Guide.md


15) Visualizing Reddit Data

  • 소셜 미디어 플랫폼인 Reddit이 데이터를 추출하여 데이터 분석을 하고 데이터 시각화를 통해 인사이트를 만들고자 하는 프로젝트입니다

  • 기술스택: Reddit API, AWS S3, Amazon RedShift, dbt, Google Data Studio, Apache Airflow

  • 소스코드: https://github.com/ABZ-Aaron/Reddit-API-Pipeline


16) Analyzing data from Crinacle

  • 크리나클 웹사이트에서 데이터를 스크랩하여 헤드폰과 이어폰에 대한 귀중한 인사이트와 정보를 얻을수 있으며,이 데이터를 통해 시장 분석, 제품 개발 및 고객 세분화에 사용할 수 있습니다. 그리고, 데이터 파이프라인을 통해데이터를 처리하고, 검증하고, 변환하여 데이터를 분석합니다

  • 기술스택: AWS S3, Python, AWS RDS, AWS RedShift, AWS S3, Terraform, dbt

  • 소스코드: https://github.com/ris-tlp/audiophile-e2e-pipeline


17) Live Twitter Sentiment Analysis

  • 트위터의 사용자의 감정 분석을 통해 소셜 미디어 트렌드, 사용자의 감정, 온라인 커뮤니티의 미래 전망에 주로 초점을 맞춘 제품 개발을 위한 인사이트를 얻고자 하는 프로젝트입니다.

  • 기술스택: MongoDB, Apache Kafka, Python, Apache Spark, NiFi

  • 소스코드: https://www.projectpro.io/project-use-case/live-twitter-sentiments-analysis-spark


18) Website Monitoring

  • 웹사이트가 예상대로 작동하는지, 웹사이트 방문자가 아무런 문제 없이 사이트를 사용할 수 있는지 확인 및 검증하는 웹사이트 모니터링 서비스를 구현하는 프로젝트입니다

  • 기술스택: Amazon EC2, Kinesis, SNS, Aurora, Lambda

  • 소스코드: https://www.projectpro.io/project-use-case/website-monitoring-aws-project


19) Bitcoin Mining

  • 데이터 마이닝 개념을 적용하여 무료로 제공되는 상대 데이터를 사용하여 비트코인을 채굴하는 Python을 사용하여 API에서 데이터를 추출하고, 파싱한 다음 로컬로 EC2 인스턴스에 저장하는 간단한 프로젝트입니다

  • 기술스택: Amazon EC2, Apache HDFS, Python

  • 소스코드: https://www.projectpro.io/project-use-case/building-data-warehouse-using-apache-spark-hive


20) How to deal with slowly changing dimensions?

  • 지리적 위치, 직원, 고객 등의 데이터 집합 속성값을 Snowflake 데이터 웨어하우스에서 구현해보는 프로젝트입니다

  • 기술스택: Python3, JavaScript, SQL, Faker, NiFi, Amazon S3, Snowflake, Amazon EC2, Docker

  • 소스코드:  https://www.projectpro.io/project-use-case/how-to-implement-slowly-changing-dimensions-in-snowflake


21) GCP Project to Explore Cloud Functions

22) Yelp Data Analysis

23) Data Governance

24) Real-time Data Ingestion

25) ETL Pipeline

26) Data Integration

27) ETL and ELT Operations

28) Apache Spark

29) Delta Lake

30) Apache Cassandra


  • source: https://www.projectpro.io/article/real-world-data-engineering-projects-/472

Big Data and Data Science Projects - Learn by building apps

ProjectPro

Big Data and Data Science Projects - Learn by building apps

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 19일 오후 2:29

 • 

저장 11조회 1,928

댓글 0

    함께 읽은 게시물

    국내 최초 ‘창고형 약국’이 성남에 문을 열며 약국 유통 구조에 변화를 일으키고 있습니다💊

    ... 더 보기


    류중희 대표는 퓨처플레이 창업 13년 만에 대표직에서 사임했다. 퓨처플레이는 스타트업 투자 및 육성을 전문으로 하는 VC이자 액셀러레이터(AC)로, 딥테크를 비롯해 라이프스타일, 콘텐츠 등 다양한 분야의 혁신 스타트업에 투자하고 있다. 리얼월드는 한일 제조업의 강점을 바탕으로, 산업 현장에 바로 적용 가능한 RFM을 개발 중이다.

    ... 더 보기

    리얼월드, 210억 시드투자 유치…글로벌 대기업 협력

    cm.asiae.co.kr

    리얼월드, 210억 시드투자 유치…글로벌 대기업 협력

    < 왜 똑똑한 사람들이 때로 끔찍한 결정을 할까? >

    1. 나는 파스칼이 사상의 역사에 길이 남을 만큼 지극히 정확한 말을 했다고 생각합니다.

    ... 더 보기

    < 가짜 전문가와 진짜 멘토를 구별하는 법 >

    1. 질문에 대한 답을 제공하는 일을 돈벌이로 삼는 사람은 상대가 누구라도 질문이 같으면 같은 대답을 합니다.

    ... 더 보기

    ✍️ 오늘은 PM이 읽어볼만한 책을 한 권 소개해드릴까 해요. 스스로의 동기부여가 어려운 분들이나, 동료를 설득해야되는 PM이나, 조직에 자발적 활력을 만들어내고 싶은 조직장 모두가 읽어볼만한 책입니다. — 📖 <스타트 위드 와이: 나는 왜 이 일을 하는가> 🔖 이성적 범주에 속하는 WHAT은 WHY에서 느껴지는 감정을 겉으로 보여주는 근거 역할을 한다. 어떤 직감으로 결정을 내렸는지 말로 표현할 수 있고 자신의 WHY를 명확히 설명할 수 있으면 주변 사람들에게 결정을 내린 이유를 분명히 이해시킬 수 있다. 이 결정이 객관적인 사실이나 수치와 일관성을 이룬다면 근거은 더욱 타당해진다. 이것이 바로 균형이다. (129p) — PM으로 일하면서 가장 어려운 일이 무엇이냐고 물어보면, 대부분 why를 조직장이나 동료들에게 설득하는 과정을 원탑으로 꼽을 겁니다. 문제를 정확히 정의하고, 논리를 만드는 것도 어렵고, 그것을 말이나 글로 표현해 내는 것도 어렵죠. 그래서 프로젝트 문서에 정량적인 데이터 분석을 수반하고, 숫자를 통해 프로젝트의 공감대를 형성하려고 시도할 때가 생깁니다. 하지만 Why에 대해 본인이 충... 더 보기