
databricks
Staff Software Engineer, AI Runtime
개발AI·머신러닝인프라·DevOps
AI 요약
Databricks의 AI Runtime(AIR)용 Staff Software Engineer로서 대규모 GPU 학습·파인튜닝 플랫폼을 설계·고도화하는 역할입니다. 수천 개 GPU를 아우르는 분산 학습, 스케줄링, 장애 복구, 성능 최적화, 관측성, 개발자 경험 개선을 주도하며 제품·리서치·플랫폼 팀과 협업합니다.
주요 업무
AIR의 managed GPU training platform 아키텍처 설계 및 진화 주도. 대규모 멀티노드 학습 오케스트레이션, 분산 병렬화, GPU 스케줄링 및 동적 라우팅, 고속 데이터 로딩, 체크포인트/복구 체계 설계. GPU 효율과 학습 성능 최적화, 활용도 및 처리량 개선, 비용 절감. 장애 감지·복구·관측성 기반 구축으로 장기 실행 학습 잡의 안정성 확보. API, CLI, 디버깅/모니터링 등 개발자 경험 개선. 최신 accelerator 및 신규 리전 지원 확장. 디자인 리뷰와 기술 논의를 통한 엔지니어 멘토링 및 기술 방향성 수립.
자격 요건
10년 이상 대규모 분산 시스템 구축·운영 경험, 특히 GPU training infrastructure / high-performance computing / ML systems 경험 필요. PyTorch, FSDP, DeepSpeed, Megatron 등 분산 학습 프레임워크 실무 경험과 data/tensor/pipeline/sequence parallelism 이해 필요. checkpointing, failure detection, automatic recovery 등 학습 복원력 패턴에 대한 이해 필요. GPU 아키텍처, NVLink, InfiniBand, RoCE, collective communication, throughput/utilization 병목에 대한 이해 필요. 클라우드 기반 managed multi-tenant platform 제품 경험과 SLA/SLO 운영 경험 필요. 알고리즘, 자료구조, 시스템 설계 역량, 복잡한 프로젝트를 고객/비즈니스 가치로 연결하는 역량, 뛰어난 커뮤니케이션 및 협업 능력, 전략적 제품 관점, 엔지니어 멘토링 역량 필요. BS in Computer Science 또는 관련 전공 필수, MS/PhD 우대.
기술 스택
PyTorchFSDPDeepSpeedMegatronNVLinkInfiniBandRoCEGPUdistributed systemscloud
databricks의 다른 공고
Sales Dev AI Program Manager
Director, Regional System Integrator Portfolio
영업Staff Research Engineer, Data Agents
AI·머신러닝, 연구·R&DSr. Specialist Solutions Architect - Data Engineering & Warehousing
영업Solutions Architect (Benelux Hunter Pre-sales)
영업Sr. Technology Partner Director, Business Applications
영업Delivery Solutions Architect
영업, 고객지원Solutions Architect
영업