HoJoong Kim

Senior IT guy

Top 20+ DE Project Ideas for Beginners

원제: Top 20+ Data Engineering Project Ideas for Beginners with Source Code [2024]

업계에서 요구하는, 대부분의 데이터 엔지니어 기술을 포괄하고, 이해하기 쉬운 아키텍처 워크플로를 갖춘 20개 이상의 최고의 데이터 엔지니어링 프로젝트를 추천합니다. 좀 더 상세한 내용은 원문을 참고하시기 바랍니다.

1) Smart IoT Infrastructure

초보자들을 위한 30개의 IoT 프로젝트들로 스마트 IoT 인프라 구축을 위한 일반적인 아키텍처를 살펴보고, 수집되는 대량의 데이터를 빠른 속도로 처리하는 것을 배웁니다
기술스택: Apache Spark, Apache Kafka, Apache HBase
소스코드: https://www.projectpro.io/projects

2) Aviation Data Analysis

항공 데이터를 통해 API에서 스트리밍 데이터를 가져오고, 데이터를 정리하고, 데이터를 변환하여 인사이트를 얻고, 대시보드에서 데이터를 시각화하는 방법을 배웁니다.
기술스택: Apache NiFi, Kafka, HDFS, Hive, Druid, AWS QuickSight
소스코드: https://www.projectpro.io/project-use-case/real-time-big-data-pipeline-aws-quicksight

3) Event Data Analysis

뉴욕시 기관들이 제공하는 무료공공데이터를 통해서, 뉴욕시에서 발생하는 사고를 분석를 위해 데이터 추출, 데이터 정리, 데이터 변환, 탐색적 분석, 데이터 시각화, 데이터 모델링, 클라우드에서 이벤트 데이터의 데이터 흐름 오케스트레이션을 포함하는 데이터 엔지니어링 파이프라인을 구축하는 엔드투엔드 빅 데이터 프로젝트입니다.
기술스택: Kibana, PySpark, AWS ElasticSearch
소스코드: https://github.com/PoulomiTarania/Bigdata_with_AWS

4) Data Ingestion with Google Cloud Platform

Google 클라우드 플랫폼(GCP)에서 실시간 스트리밍 및 일괄 로드를 통한 데이터 수집 및 처리 파이프라인을 포함하며, 학술 및 연구 목적으로 사용되는 Yelp 데이터 세트를 처리하는 프로젝트입니다.
구글 클라우드 데이터 플로우를 사용한 SQL을 통한 데이터 수집
기술스택: Apache AirFlow, Apache Beam, GCP- Google Data Studio, Google BitQuery, Google Cloud Storage, Google Cloud Dataflow, Google Cloud Pub/Sub
소스코드: https://www.projectpro.io/project-use-case/apache-beam-pipeline-for-cleaning-batch-data-using-cloud-dataflow-and-bigquery

5) Data Visualization

데이터 엔지니어의 원활한 분석을 위해 데이터를 시각화해야 하는 방법을 배우는 프로젝트로,
워크플로우 관리를 위한 Apache Airflow, Hadoop을 사용하여 Wikipedia 아카이브를 처리하고, 데이터 저장을 위한 Amazon S3, 데이터 전처리를 위한 Hive, 트렌드 및 분석 표시를 위한 제플린 노트북을 활용하세요
기술스택: Apache Hadoop, Apache Zeppelin, Apache Airflow
소스코드: https://github.com/skyler-myers-db/Wikipedia-Big-Data-Analysis

6) Data Aggregation

여러 소스에서 데이터를 수집하고 이를 통해 통찰력 있는 결론을 도출하는 데이터 집계를 통해 실시간 데이터 처리가 무엇인지, 빅데이터 프로젝트의 아키텍처와 데이터 흐름을 배울수 있습니다.
기술스택: Apache Spark, Spark SQL, Python, Kafka
소스코드: https://github.com/Tirth27/Real-time-analytics-with-spark-streaming

7) Building a web-based Surfline Dashboard

이 프로젝트는 서퍼들을 위한 웹 기반 대시보드를 구축하여 전 세계 인기 서핑 장소의 서핑 상황에 대한 실시간 정보를 제공하는 것으로, Surfline API에서 서핑 데이터를 수집하고 처리하여 Postgres 데이터 웨어하우스에 저장하는 데이터 파이프라인을 만드는 것이 목표입니다
기술스택: AWS, PostgreSQL, Python, Surfline API
소스코드: https://github.com/andrem8/surf_dash

8) Log Analytics Project

데이터 엔지니어링 및 분석 기술을 적용하여 서버에 가장 자주 접속하는 호스트, 서버와 가장 많은 네트워크 트래픽을 유발하는 국가 또는 도시 등 서버 로그 데이터를 수집하고, 전처리한 다음, 데이터 흐름 관리 프레임워크 Apache NiFi를 사용하여 안정적인 분산 스토리지 HDFS에 저장하고, Apache Spark를 사용하여 데이터를 정리하고 변환하는 작업이 포함된 프로젝트입니다
기술스택: Apache Kafka, AWS EC2, Apache NiFi, Spark Streaming, Cassandra, Docker
소스코드: https://www.projectpro.io/project-use-case/real-time-log-processing-using-streaming-architecture

9) COVID-19 Data Analysis

코로나19 데이터를 전처리하고 병합하여 실시간 코로나19 API 데이터 집합 분석에 대비하는 방법을 배웁니다. NiFi를 사용하여 Kafka 토픽과 HDFS로 푸시하고, Pyspark cluster에서 처리 및 분석하여 Hive database로 수집한 후 Tableau 및 Quicksight와 같은 시각화 도구를 사용하여 데이터 플롯으로 게시됩니다
기술스택: NiFi, PySpark, Hive, HDFS, Kafka, Airflow, Tableau and AWS QuickSight
소스코드: https://www.projectpro.io/project-use-case/build-a-data-pipeline-based-on-messaging-using-spark-and-hive

10) Movielens Data Analysis for Recommendations

이 프로젝트는 사용자의 선택에 따라 선호도를 예측하거나 필터링하는 추천시스템 사례로 Netflix, Amazon Prime, Hulu, Hotstar 등과 같은 유명 스트리밍 서비스에서 과거 시청 패턴을 기반으로 사용자에게 영화를 추천하기 위해 사용하는 영화 추천 시스템에 초점을 맞춥니다. 최종 추천이 이루어지기 전에 복잡한 데이터 파이프라인이 여러 소스에서 추천 엔진으로 데이터를 가져옵니다.
기술스택: Databricks, Spark SQL, Microsoft Azure- Azure Data Lake, Azure Data Factory, Azure Blob Storage
소스코드: https://www.projectpro.io/project-use-case/analyse-movie-ratings-data

11) Retail Analytics Project Example

소매점의 데이터 세트를 분석하여 의사 결정 프로세스를 개선함으로써 성장을 지원하는 것을 목표로 하는것으로, AWS EC2 인스턴스와 도커 컴포저를 사용하고, HDFS와 Sqoop를 활용하는 프로젝트입니다
기술스택: SQL, Bash, AWS EC2, Docker, MySQL, Sqoop, Hive, HDFS
소스코드: https://www.projectpro.io/project-use-case/retail-analytics-project-example

12) Real-time Financial Market Data Pipeline with Finnhub API and Kafka

이 프로젝트는 핀허브의 실시간 금융 시장 데이터 API를 사용하여 스트리밍 데이터 파이프라인을 구축하는 것을 목표로 합니다
기술스택: Apache Kafka, Apache Spark, Python, Kubernetes, Grafana
소스코드: https://github.com/RSKriegs/finnhub-streaming-data-pipeline

13) Real-time Music Application Data Processing Pipeline

이 프로젝트는 사용자가 온라인에서 음악을 검색하고, 듣고, 공유할 수 있는 가짜 플랫폼인 Streamify의 데이터를 사용하여 실시간 데이터를 수집하여 2분마다 데이터 레이크에 저장하는 데이터 파이프라인을 구축하는 것이 목표입니다
기술스택: Apache Kafka, Apache Spark, GCP, Docker, Apache Airflow, Terraform
소스코드: https://github.com/ankurchavda/streamify

14) Shipping and Distribution Demand Forecasting

초보자를 위한 최고의 데이터 엔지니어링 프로젝트 중 하나로, 물류회사의 수요 데이터를 사용하여 다양한 고객, 제품 및 목적지에 대한 미래 수요를 예측하고자 합니다
기술스택: Azure SQL, Azure Machine Learning, Azure Data Factory, Power BI, Azure Blob Storage
소스코드: https://github.com/Azure/cortana-intelligence-shipping-and-distribution-forecasting/blob/master/Technical%20Deployment%20Guide/Technical-Solution-Guide.md

15) Visualizing Reddit Data

소셜 미디어 플랫폼인 Reddit이 데이터를 추출하여 데이터 분석을 하고 데이터 시각화를 통해 인사이트를 만들고자 하는 프로젝트입니다
기술스택: Reddit API, AWS S3, Amazon RedShift, dbt, Google Data Studio, Apache Airflow
소스코드: https://github.com/ABZ-Aaron/Reddit-API-Pipeline

16) Analyzing data from Crinacle

크리나클 웹사이트에서 데이터를 스크랩하여 헤드폰과 이어폰에 대한 귀중한 인사이트와 정보를 얻을수 있으며,이 데이터를 통해 시장 분석, 제품 개발 및 고객 세분화에 사용할 수 있습니다. 그리고, 데이터 파이프라인을 통해데이터를 처리하고, 검증하고, 변환하여 데이터를 분석합니다
기술스택: AWS S3, Python, AWS RDS, AWS RedShift, AWS S3, Terraform, dbt
소스코드: https://github.com/ris-tlp/audiophile-e2e-pipeline

17) Live Twitter Sentiment Analysis

트위터의 사용자의 감정 분석을 통해 소셜 미디어 트렌드, 사용자의 감정, 온라인 커뮤니티의 미래 전망에 주로 초점을 맞춘 제품 개발을 위한 인사이트를 얻고자 하는 프로젝트입니다.
기술스택: MongoDB, Apache Kafka, Python, Apache Spark, NiFi
소스코드: https://www.projectpro.io/project-use-case/live-twitter-sentiments-analysis-spark

18) Website Monitoring

웹사이트가 예상대로 작동하는지, 웹사이트 방문자가 아무런 문제 없이 사이트를 사용할 수 있는지 확인 및 검증하는 웹사이트 모니터링 서비스를 구현하는 프로젝트입니다
기술스택: Amazon EC2, Kinesis, SNS, Aurora, Lambda
소스코드: https://www.projectpro.io/project-use-case/website-monitoring-aws-project

19) Bitcoin Mining

데이터 마이닝 개념을 적용하여 무료로 제공되는 상대 데이터를 사용하여 비트코인을 채굴하는 Python을 사용하여 API에서 데이터를 추출하고, 파싱한 다음 로컬로 EC2 인스턴스에 저장하는 간단한 프로젝트입니다
기술스택: Amazon EC2, Apache HDFS, Python
소스코드: https://www.projectpro.io/project-use-case/building-data-warehouse-using-apache-spark-hive

20) How to deal with slowly changing dimensions?

지리적 위치, 직원, 고객 등의 데이터 집합 속성값을 Snowflake 데이터 웨어하우스에서 구현해보는 프로젝트입니다
기술스택: Python3, JavaScript, SQL, Faker, NiFi, Amazon S3, Snowflake, Amazon EC2, Docker
소스코드: https://www.projectpro.io/project-use-case/how-to-implement-slowly-changing-dimensions-in-snowflake

21) GCP Project to Explore Cloud Functions

22) Yelp Data Analysis

23) Data Governance

24) Real-time Data Ingestion

25) ETL Pipeline

26) Data Integration

27) ETL and ELT Operations

28) Apache Spark

29) Delta Lake

30) Apache Cassandra

source: https://www.projectpro.io/article/real-world-data-engineering-projects-/472

Big Data and Data Science Projects - Learn by building apps

ProjectPro

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 8월 19일 오후 2:29

•

저장 11 • 조회 1,965

비슷한 게시물

주간 인기 TOP 10

장홍석 스페이스오디티 부대표/CPO

< 리더를 위한 효율적인 시간 쪼개기 기술 3가지 >

달레 Apollo GraphQL Software Engineer

🍞 Bun이 Anthropic의 가족이 되었습니다! 🎉

하조은 당근 Product Engineer

사이드 프로젝트에 날개를 달아준 클로드 코드

달레 Apollo GraphQL Software Engineer

📻 프로그래머를 위한 프로그래밍 팟캐스트, 달레줄레 🎙️

골빈해커 Chief Maker

📝 AI가 Anthropic의 업무 방식을 어떻게 바꾸고 있는가

기묘한 트렌드라이트 발행인

🚀쿠팡, 지금은 정말 피할 때가 아닙니다

Ruth Hyojin Nam 시니어 QA 매니저

[2부:적용편] 소프트웨어 테스팅에 AI 활용하기 2)

김병호 삼성 SDS

프로세스는 성공을 만들지 못하지만, 실패를 줄인다

빙빙빙 기획

실무진 검증 과제 기반 | 통신3사 마케팅전략 공모전 (~12/2

석민 커리어 코치

방법보다 방향이 중요해요

Top 20+ DE Project Ideas for Beginners

댓글 0

비슷한 게시물

주간 인기 TOP 10

추천 프로필

Top 20+ DE Project Ideas for Beginners

댓글 0

비슷한 게시물

주간 인기 TOP 10

추천 프로필

Top 20+ DE Project Ideas for Beginners