산호세 주립대에서 강의한 Data Engineering 과목 커리큘럼

2024년 가을학기에 산호세 주립대 응용 데이터 과학 석사 과정에서 "DATA 226 Data Warehouse and Data Pipelines"이라는 과목을 가르치면서 그동안 17주 과정으로 가르쳤다. 희한하게 판데믹 전에는 이런 내용도 회사 주니어들 혹은 자문하면서 설명하느라 영어로 되어있는 컨텐츠였는데 한국에 있는 분들 대상으로 지난 3-4년 가르치면서 다 한국어로 바꿨다가 이번 강의 때문에 다시 다 영어로 바꿨다.


가르치면서 다시 한번 나는 선생/교수가 맞는 일이란 깨달았지만 동시에 세상이 바뀌고 있는데 이런 식으로 가르치는 것이 맞는지에 대한 큰 의구심을 갖게 되었다. 산호세 주립대는 취업에 집중하는 학교인데도 현실과는 거리가 있다. 예를 들면 GenAI를 사용해 숙제 하는 것을 허용할 것인지 여부인데 개인적으로는 상관할 필요가 없다는 생각이지만 학교 차원에서 어떤 정책이나 원칙이 정해져 있지는 않다.


참고로 커리큘럼은 아래처럼 만들어서 이제 15주차가 끝났다.


  1. Data System Overview

  2. Data Warehouse Overview

  3. Data Warehouse Deepdive (Snowflake)

  4. Advanced SQLs on Snowflake

  5. Data Pipeline Overview

  6. Airflow Overview

  7. Midterm exam

  8. Advanced Airflow

  9. ELT Overview

  10. ELT Deepdive (dbt)

  11. NoSQL Overview (VectorDB)

  12. Big Data Processing (Spark)

  13. Streaming Data Overview (Kafka)

  14. End-to-end Data System & Guest Speaker

  15. Thanksgiving Break

  16. Group Project Presentation

  17. Final exam


77명의 학생을 두 클래스 나눠서 목금 오후 3시부터 6시까지 가르쳤고, 총 10번의 숙제를 냈으며, 두 번의 2인 1조 단기 프로젝트가 있었고 다음 주에 4인 1조 장기 프로젝트 발표가 있고 마지막 주에 기말 고사를 보면 끝난다. 단기 프로젝트를 하는 걸 보면 확실히 현업 경력이 있는 친구들이 잘 한다. 잘한 팀이 많았지만 GitHub에 잘 정리해 올린 팀 두 곳만 소개하면 아래와 같다.


https://github.com/SreenidhiHayagreevan/data226-lab2

https://github.com/sadhvi-singh/CryptoStream_Analytics


다음 주 그룹 프로젝트 발표에서는 어떤 결과물이 나올지 자뭇 기대된다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 11월 27일 오후 7:09

댓글 0