๐ ๋ฐ์ดํฐ ์์ง๋์ด๊ฐ ๋๊ธฐ ์ํ ๋ก๋๋งต(Roadmap to becoming a data engineer) - ๋ฐ์ดํฐ ์์ง๋์ด๊ฐ ๋๊ธฐ ์ํ ๋ก๋๋งต 2021๋ ๋ฒ์ ์ ๋๋ค - Github ๋งํฌ๊ณ , ํ์ฌ
๐ ๋ฐ์ดํฐ ์์ง๋์ด๊ฐ ๋๊ธฐ ์ํ ๋ก๋๋งต(Roadmap to becoming a data engineer) - ๋ฐ์ดํฐ ์์ง๋์ด๊ฐ ๋๊ธฐ ์ํ ๋ก๋๋งต 2021๋ ๋ฒ์ ์ ๋๋ค - Github ๋งํฌ๊ณ , ํ์ฌ Star๋ฅผ 6800๊ฐ ๋ฐ์ ๋ฌธ์์ ๋๋ค :) - ์๋ฌธ ์๋ฃ์ง๋ง ํค์๋๋ฅผ ์ป์ ์ ์์ด์ ๋งค์ฐ ์ ์ฉํฉ๋๋ค! ๐ ์ด ๊ธ์ ์ถ์ฒํ๋ ์ด์ - ๋ฐ์ดํฐ ์์ง๋์ด๊ฐ ๊ฐ์ง๊ณ ์์ผ๋ฉด ์ข์ ์ญ๋๋ค์ ๊ธฐ์ ์คํ์ผ๋ก ๋์ดํ ๊ธ์ ๋๋ค - ํค์๋๋ฅผ ์์๋ฉด ๋งค์ฐ ์ ์ฉํฉ๋๋ค! - ์ ๋ ์๊ณ ์๋ ํค์๋์ ์์ง ๋ชปํ๋ ํค์๋๋ฅผ ํ์ธํ ์ ์์ด์ ์ ์ฉํ์ต๋๋ค! - ๋ํ๋ก ๋์์์ด์ ์ฝ๊ฒ ํ์ธํ์ค ์ ์์ต๋๋ค :) ๐ ์ฝ์ผ๋ฉด ์ข์ ๋ถ - ๋ฐ์ดํฐ ์์ง๋์ด๋ฅผ ํฌ๋งํ์๋ ๋ถ๋ค - ๋ฐ์ดํฐ ์์ง๋์ด๋ฅผ ํ๊ณ ๊ณ์ ๋ฐ, ์ปค๋ฆฌ์ด์ ๋ํ ๊ณ ๋ฏผ์ ํ๊ณ ๊ณ์ ๋ถ ๐ ๋ด์ฉ - CS ๊ธฐ์ด - ํฐ๋ฏธ๋ ์ฌ์ฉ๋ฒ - ๋ฐ์ดํฐ ๊ตฌ์กฐ ๋ฐ ์๊ณ ๋ฆฌ์ฆ - APIs - REST - Structured vs Unstructured data - Serialization(์ง๋ ฌํ) - Linux - ์ปดํจํฐ๊ฐ ๋์ํ๋ ๋ฐฉ๋ฒ์? - ์ธํฐ๋ท์ด ๋์ํ๋ ๋ฐฉ๋ฒ์? - Git ์ฌ์ฉ๋ฒ - ์ํ, ํต๊ณํ ๊ธฐ์ด - ํ๋ก๊ทธ๋๋ฐ ์ธ์ด - ํ์ด์ฌ - ์๋ฐ - ์ค์นผ๋ผ - ๊ณ - Test - ์ ๋ ํ ์คํธ - ํตํฉ ํ ์คํธ - ํจ์ ํ ์คํธ - ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ธฐ์ด - SQL - Normalization - ACID Transaction - CAP ์ ๋ฆฌ - OLTP vs OLAP - Horizontal vs vertical scaling - Dimensional modeling : ๋ฐ์ดํฐ ์จ์ด ํ์ฐ์ค ๋์์ธ์ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ - ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค - MySQL - PostgreSQL - MariaDB - AWS Aurora - ๋น์ ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค - Document ๋ฐ์ดํฐ๋ฒ ์ด์ค - MongoDB - Elasticsearch - Apache CouchDB - Azure CormosDB - Wide Column ๋ฐ์ดํฐ๋ฒ ์ด์ค : ํ๋ง๋ค ํค์ ๊ฐ์ ์ ์ฅํ ๋ ๊ฐ๊ฐ ๋ค๋ฅธ ๊ฐ์ ๋ค๋ฅธ ์ ์คํค๋ง๋ฅผ ๊ฐ์ง ์ ์์ - Apache Cassandra - Apache HBase -Google Cloud BigTable - ๊ทธ๋ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค - Neo4J - Amazon Neptune - Key Value Store - Redis - Memcached - Amazon DynamoDB - ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค - Snowflake - Presto - Apache Hive - Apache Impala - Amazon Redshift - Google BigQuery - Azure Synapse - ClickHouse - Object ์ ์ฅ์ - AWS S3 - Azure Blob Storage - Google Cloud Storage - ํด๋ฌ์คํฐ ์ปดํจํ ๊ธฐ์ด - Apache Hadoop - HDFS - MapReduce - Lambda & Kappa ์ํคํ ์ณ - Managed Hadoop - Amazon EMR - Google Dataproc - Azure Data Lake - ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(Data processing) - Batch - Apache Pig - Apache Arrow - Data build tool - Hybrid : Batch์ Streaming ๋ชจ๋ ์ฒ๋ฆฌํ ์ ์๋ ํ์ด๋ธ๋ฆฌ๋ - Apache Spark - Apache Beam - Apache Flink - Apache NiFi - Streaming - Apache Kafka [personal recommendation] - Apache Storm [general recommendation] - Apache Samza - Amazon Kinesis - Messaging - RabbitMQ [general recommendation] - Apache ActiveMQ - Amazon SNS & SQS - Google PubSub - Azure Service Bus - Workflow scheduling - Apache Airflow - Google Composer - Apache Oozie - Luigi - Monitoring data pipelines - Prometheus - Datadog - Sentry - StatsD - Networking - Protocols - HTTP / HTTPS - TCP - SSH - IP - DNS - Firewalls - VPN - VPC - Infrastructure as Code - Containers - Docker - LXC - Container orchestration - Kubernetes - Docker Swarm - Apache Mesos - Google Kubernetes Engine (GKE) - Infrastructure provisioning - Terraform - Pulumi - AWS CDK - CI/CD - GitHub Actions - Jenkins - Identity and access management - Active Directory - Azure Active Directory - Data security & privacy - Legal compliance - Encryption - Key management - Data governance & integrity