
databricks
Senior Software Engineer, AI Runtime
개발인프라·DevOps
AI 요약
Databricks의 AI Runtime(AIR)에서 대규모 GPU 학습·파인튜닝 플랫폼을 설계·구축·고도화할 Senior Software Engineer를 채용합니다. 분산 학습, GPU 스케줄링, 장애 복구, 성능 최적화, 관측성 및 개발자 경험 개선이 핵심이며, PyTorch/FSDP/DeepSpeed/Megatron 등 대규모 학습 스택 경험이 중요합니다.
주요 업무
AIR의 managed GPU training platform 아키텍처 및 진화 주도, 대규모 멀티노드 학습의 스케줄링/용량/오케스트레이션 설계, 분산 병렬화 전략 및 학습 성능 최적화, 장애 복구·체크포인트·관측성 기반 구축, API·CLI·개발자 경험 개선, 최신 accelerator 및 신규 리전 지원 확대, end-to-end 엔지니어링 수행, 엔지니어 멘토링 및 기술 방향성 수립
자격 요건
필수: 5년 이상 대규모 분산 시스템 구축·운영 경험, GPU training infrastructure/HPC/ML systems 경험, PyTorch/FSDP/DeepSpeed/Megatron 등 분산 학습 프레임워크 경험, data/tensor/pipeline/sequence parallelism 이해, checkpointing·failure detection·automatic recovery 등 resilience 패턴 이해, NVLink·InfiniBand·RoCE·collective communication 등 GPU 성능 기본기, 클라우드 멀티테넌트 플랫폼 운영 경험, 알고리즘·자료구조·시스템 설계 역량, 제품/리서치/인프라 팀과의 협업 및 커뮤니케이션 능력. 우대: BS in Computer Science 또는 관련 전공, MS/PhD 선호, 기술적으로 복잡하고 임팩트 큰 과제 수행 경험, 멘토링 및 기술 리더십.
기술 스택
PyTorchFSDPDeepSpeedMegatronGPUNVLinkInfiniBandRoCECLIAPIdistributed systems
databricks의 다른 공고
Sales Dev AI Program Manager
Director, Regional System Integrator Portfolio
영업Staff Research Engineer, Data Agents
AI·머신러닝, 연구·R&DSr. Specialist Solutions Architect - Data Engineering & Warehousing
영업Solutions Architect (Benelux Hunter Pre-sales)
영업Sr. Technology Partner Director, Business Applications
영업Delivery Solutions Architect
영업, 고객지원Solutions Architect
영업