Top 20+ DE Project Ideas for Beginners

원제: Top 20+ Data Engineering Project Ideas for Beginners with Source Code [2024]


업계에서 요구하는, 대부분의 데이터 엔지니어 기술을 포괄하고, 이해하기 쉬운 아키텍처 워크플로를 갖춘 20개 이상의 최고의 데이터 엔지니어링 프로젝트를 추천합니다. 좀 더 상세한 내용은 원문을 참고하시기 바랍니다.

 

1) Smart IoT Infrastructure

  • 초보자들을 위한 30개의 IoT 프로젝트들로 스마트 IoT 인프라 구축을 위한 일반적인 아키텍처를 살펴보고, 수집되는 대량의 데이터를 빠른 속도로 처리하는 것을 배웁니다

  • 기술스택: Apache Spark, Apache Kafka, Apache HBase

  • 소스코드: https://www.projectpro.io/projects


2) Aviation Data Analysis

  • 항공 데이터를 통해 API에서 스트리밍 데이터를 가져오고, 데이터를 정리하고, 데이터를 변환하여 인사이트를 얻고, 대시보드에서 데이터를 시각화하는 방법을 배웁니다.

  • 기술스택:  Apache NiFi, Kafka, HDFS, Hive, Druid, AWS QuickSight

  • 소스코드: https://www.projectpro.io/project-use-case/real-time-big-data-pipeline-aws-quicksight


3) Event Data Analysis

  • 뉴욕시 기관들이 제공하는 무료공공데이터를 통해서, 뉴욕시에서 발생하는 사고를 분석를 위해 데이터 추출, 데이터 정리, 데이터 변환, 탐색적 분석, 데이터 시각화, 데이터 모델링, 클라우드에서 이벤트 데이터의 데이터 흐름 오케스트레이션을 포함하는 데이터 엔지니어링 파이프라인을 구축하는 엔드투엔드 빅 데이터 프로젝트입니다.

  • 기술스택: Kibana, PySpark, AWS ElasticSearch

  • 소스코드: https://github.com/PoulomiTarania/Bigdata_with_AWS


4) Data Ingestion with Google Cloud Platform

  • Google 클라우드 플랫폼(GCP)에서 실시간 스트리밍 및 일괄 로드를 통한 데이터 수집 및 처리 파이프라인을 포함하며, 학술 및 연구 목적으로 사용되는 Yelp 데이터 세트를 처리하는 프로젝트입니다.

    구글 클라우드 데이터 플로우를 사용한 SQL을 통한 데이터 수집

  • 기술스택: Apache AirFlow, Apache Beam, GCP- Google Data Studio, Google BitQuery, Google Cloud Storage, Google Cloud Dataflow, Google Cloud Pub/Sub

  • 소스코드: https://www.projectpro.io/project-use-case/apache-beam-pipeline-for-cleaning-batch-data-using-cloud-dataflow-and-bigquery


5) Data Visualization

  • 데이터 엔지니어의 원활한 분석을 위해 데이터를 시각화해야 하는 방법을 배우는 프로젝트로,

    워크플로우 관리를 위한 Apache Airflow, Hadoop을 사용하여 Wikipedia 아카이브를 처리하고, 데이터 저장을 위한 Amazon S3, 데이터 전처리를 위한 Hive, 트렌드 및 분석 표시를 위한 제플린 노트북을 활용하세요

  • 기술스택: Apache Hadoop, Apache Zeppelin, Apache Airflow

  • 소스코드: https://github.com/skyler-myers-db/Wikipedia-Big-Data-Analysis


6) Data Aggregation

  • 여러 소스에서 데이터를 수집하고 이를 통해 통찰력 있는 결론을 도출하는 데이터 집계를 통해 실시간 데이터 처리가 무엇인지, 빅데이터 프로젝트의 아키텍처와 데이터 흐름을 배울수 있습니다.

  • 기술스택: Apache Spark, Spark SQL, Python, Kafka

  • 소스코드: https://github.com/Tirth27/Real-time-analytics-with-spark-streaming


7) Building a web-based Surfline Dashboard

  • 이 프로젝트는 서퍼들을 위한 웹 기반 대시보드를 구축하여 전 세계 인기 서핑 장소의 서핑 상황에 대한 실시간 정보를 제공하는 것으로, Surfline API에서 서핑 데이터를 수집하고 처리하여 Postgres 데이터 웨어하우스에 저장하는 데이터 파이프라인을 만드는 것이 목표입니다

  • 기술스택: AWS, PostgreSQL, Python, Surfline API

  • 소스코드: https://github.com/andrem8/surf_dash


8) Log Analytics Project

  • 데이터 엔지니어링 및 분석 기술을 적용하여 서버에 가장 자주 접속하는 호스트, 서버와 가장 많은 네트워크 트래픽을 유발하는 국가 또는 도시 등 서버 로그 데이터를 수집하고, 전처리한 다음, 데이터 흐름 관리 프레임워크 Apache NiFi를 사용하여 안정적인 분산 스토리지 HDFS에 저장하고, Apache Spark를 사용하여 데이터를 정리하고 변환하는 작업이 포함된 프로젝트입니다

  • 기술스택: Apache Kafka, AWS EC2, Apache NiFi, Spark Streaming, Cassandra, Docker

  • 소스코드: https://www.projectpro.io/project-use-case/real-time-log-processing-using-streaming-architecture


9) COVID-19 Data Analysis

  • 코로나19 데이터를 전처리하고 병합하여 실시간 코로나19 API 데이터 집합 분석에 대비하는 방법을 배웁니다. NiFi를 사용하여 Kafka 토픽과 HDFS로 푸시하고, Pyspark cluster에서 처리 및 분석하여 Hive database로 수집한 후 Tableau 및 Quicksight와 같은 시각화 도구를 사용하여 데이터 플롯으로 게시됩니다

  • 기술스택: NiFi, PySpark, Hive, HDFS, Kafka, Airflow, Tableau and AWS QuickSight

  • 소스코드: https://www.projectpro.io/project-use-case/build-a-data-pipeline-based-on-messaging-using-spark-and-hive


10) Movielens Data Analysis for Recommendations

  • 이 프로젝트는 사용자의 선택에 따라 선호도를 예측하거나 필터링하는 추천시스템 사례로 Netflix, Amazon Prime, Hulu, Hotstar 등과 같은 유명 스트리밍 서비스에서 과거 시청 패턴을 기반으로 사용자에게 영화를 추천하기 위해 사용하는 영화 추천 시스템에 초점을 맞춥니다. 최종 추천이 이루어지기 전에 복잡한 데이터 파이프라인이 여러 소스에서 추천 엔진으로 데이터를 가져옵니다.

  • 기술스택: Databricks, Spark SQL, Microsoft Azure- Azure Data Lake, Azure Data Factory, Azure Blob Storage

  • 소스코드: https://www.projectpro.io/project-use-case/analyse-movie-ratings-data


11) Retail Analytics Project Example

  • 소매점의 데이터 세트를 분석하여 의사 결정 프로세스를 개선함으로써 성장을 지원하는 것을 목표로 하는것으로, AWS EC2 인스턴스와 도커 컴포저를 사용하고, HDFS와 Sqoop를 활용하는 프로젝트입니다

  • 기술스택:  SQL, Bash, AWS EC2, Docker, MySQL, Sqoop, Hive, HDFS

  • 소스코드: https://www.projectpro.io/project-use-case/retail-analytics-project-example


12) Real-time Financial Market Data Pipeline with Finnhub API and Kafka

  • 이 프로젝트는 핀허브의 실시간 금융 시장 데이터 API를 사용하여 스트리밍 데이터 파이프라인을 구축하는 것을 목표로 합니다

  • 기술스택: Apache Kafka, Apache Spark, Python, Kubernetes, Grafana

  • 소스코드: https://github.com/RSKriegs/finnhub-streaming-data-pipeline


13) Real-time Music Application Data Processing Pipeline

  • 이 프로젝트는 사용자가 온라인에서 음악을 검색하고, 듣고, 공유할 수 있는 가짜 플랫폼인 Streamify의 데이터를 사용하여 실시간 데이터를 수집하여 2분마다 데이터 레이크에 저장하는 데이터 파이프라인을 구축하는 것이 목표입니다

  • 기술스택: Apache Kafka, Apache Spark, GCP, Docker, Apache Airflow, Terraform

  • 소스코드: https://github.com/ankurchavda/streamify

     

14) Shipping and Distribution Demand Forecasting

  • 초보자를 위한 최고의 데이터 엔지니어링 프로젝트 중 하나로, 물류회사의 수요 데이터를 사용하여 다양한 고객, 제품 및 목적지에 대한 미래 수요를 예측하고자 합니다

  • 기술스택: Azure SQL, Azure Machine Learning, Azure Data Factory, Power BI, Azure Blob Storage

  • 소스코드: https://github.com/Azure/cortana-intelligence-shipping-and-distribution-forecasting/blob/master/Technical%20Deployment%20Guide/Technical-Solution-Guide.md


15) Visualizing Reddit Data

  • 소셜 미디어 플랫폼인 Reddit이 데이터를 추출하여 데이터 분석을 하고 데이터 시각화를 통해 인사이트를 만들고자 하는 프로젝트입니다

  • 기술스택: Reddit API, AWS S3, Amazon RedShift, dbt, Google Data Studio, Apache Airflow

  • 소스코드: https://github.com/ABZ-Aaron/Reddit-API-Pipeline


16) Analyzing data from Crinacle

  • 크리나클 웹사이트에서 데이터를 스크랩하여 헤드폰과 이어폰에 대한 귀중한 인사이트와 정보를 얻을수 있으며,이 데이터를 통해 시장 분석, 제품 개발 및 고객 세분화에 사용할 수 있습니다. 그리고, 데이터 파이프라인을 통해데이터를 처리하고, 검증하고, 변환하여 데이터를 분석합니다

  • 기술스택: AWS S3, Python, AWS RDS, AWS RedShift, AWS S3, Terraform, dbt

  • 소스코드: https://github.com/ris-tlp/audiophile-e2e-pipeline


17) Live Twitter Sentiment Analysis

  • 트위터의 사용자의 감정 분석을 통해 소셜 미디어 트렌드, 사용자의 감정, 온라인 커뮤니티의 미래 전망에 주로 초점을 맞춘 제품 개발을 위한 인사이트를 얻고자 하는 프로젝트입니다.

  • 기술스택: MongoDB, Apache Kafka, Python, Apache Spark, NiFi

  • 소스코드: https://www.projectpro.io/project-use-case/live-twitter-sentiments-analysis-spark


18) Website Monitoring

  • 웹사이트가 예상대로 작동하는지, 웹사이트 방문자가 아무런 문제 없이 사이트를 사용할 수 있는지 확인 및 검증하는 웹사이트 모니터링 서비스를 구현하는 프로젝트입니다

  • 기술스택: Amazon EC2, Kinesis, SNS, Aurora, Lambda

  • 소스코드: https://www.projectpro.io/project-use-case/website-monitoring-aws-project


19) Bitcoin Mining

  • 데이터 마이닝 개념을 적용하여 무료로 제공되는 상대 데이터를 사용하여 비트코인을 채굴하는 Python을 사용하여 API에서 데이터를 추출하고, 파싱한 다음 로컬로 EC2 인스턴스에 저장하는 간단한 프로젝트입니다

  • 기술스택: Amazon EC2, Apache HDFS, Python

  • 소스코드: https://www.projectpro.io/project-use-case/building-data-warehouse-using-apache-spark-hive


20) How to deal with slowly changing dimensions?

  • 지리적 위치, 직원, 고객 등의 데이터 집합 속성값을 Snowflake 데이터 웨어하우스에서 구현해보는 프로젝트입니다

  • 기술스택: Python3, JavaScript, SQL, Faker, NiFi, Amazon S3, Snowflake, Amazon EC2, Docker

  • 소스코드:  https://www.projectpro.io/project-use-case/how-to-implement-slowly-changing-dimensions-in-snowflake


21) GCP Project to Explore Cloud Functions

22) Yelp Data Analysis

23) Data Governance

24) Real-time Data Ingestion

25) ETL Pipeline

26) Data Integration

27) ETL and ELT Operations

28) Apache Spark

29) Delta Lake

30) Apache Cassandra


  • source: https://www.projectpro.io/article/real-world-data-engineering-projects-/472

Big Data and Data Science Projects - Learn by building apps

ProjectPro

Big Data and Data Science Projects - Learn by building apps

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 19일 오후 2:29

 • 

저장 11조회 1,911

댓글 0

    함께 읽은 게시물

    👉테헤란로 소진언니 인터뷰, 김소진이 만난 사람 l 서울대 출신 CFO

    ... 더 보기

    커리어를 쌓아야 할 때 알아야 하는 잔인한 사실들

    1

    ... 더 보기

     • 

    저장 39 • 조회 1,600


    브랜드 이미지

    ... 더 보기

    다만 지난해 영업이익은 2023년 89억원에서 86억원으로 소폭 감소했다. 2023년 241억원 수준이었던 영업비용이 지난해 500억원 이상으로 급증한 영향이 컸다.

    ... 더 보기

    [단독] ‘무인 주문기 시장 1위’ 티오더, 경영권 매각 추진… 몸값 3000억 이상 기대

    조선비즈

    [단독] ‘무인 주문기 시장 1위’ 티오더, 경영권 매각 추진… 몸값 3000억 이상 기대

    퇴사 후 재취업, 이렇게 취업 했어요 #퇴사 #퇴직 #재취업

    ... 더 보기

    - YouTube

    alie.kr

     - YouTube

    유저 리서치와 AI, 실무자 인사이트 엿보기 : 레드버스백맨

    ... 더 보기

    🎙️ 유저 리서치와 AI, 실무자 인사이트 엿보기 : 레드버스백맨

    팁스터

    🎙️ 유저 리서치와 AI, 실무자 인사이트 엿보기 : 레드버스백맨

     • 

    댓글 2 • 저장 4 • 조회 544