Jobs
databricks 로고

databricks

Senior Software Engineer, AI Runtime

개발인프라·DevOps

AI 요약

Databricks의 AI Runtime(AIR)에서 대규모 GPU 학습·파인튜닝 플랫폼을 설계·구축·고도화할 Senior Software Engineer를 채용합니다. 분산 학습, GPU 스케줄링, 장애 복구, 성능 최적화, 관측성 및 개발자 경험 개선이 핵심이며, PyTorch/FSDP/DeepSpeed/Megatron 등 대규모 학습 스택 경험이 중요합니다.

주요 업무

AIR의 managed GPU training platform 아키텍처 및 진화 주도, 대규모 멀티노드 학습의 스케줄링/용량/오케스트레이션 설계, 분산 병렬화 전략 및 학습 성능 최적화, 장애 복구·체크포인트·관측성 기반 구축, API·CLI·개발자 경험 개선, 최신 accelerator 및 신규 리전 지원 확대, end-to-end 엔지니어링 수행, 엔지니어 멘토링 및 기술 방향성 수립

자격 요건

필수: 5년 이상 대규모 분산 시스템 구축·운영 경험, GPU training infrastructure/HPC/ML systems 경험, PyTorch/FSDP/DeepSpeed/Megatron 등 분산 학습 프레임워크 경험, data/tensor/pipeline/sequence parallelism 이해, checkpointing·failure detection·automatic recovery 등 resilience 패턴 이해, NVLink·InfiniBand·RoCE·collective communication 등 GPU 성능 기본기, 클라우드 멀티테넌트 플랫폼 운영 경험, 알고리즘·자료구조·시스템 설계 역량, 제품/리서치/인프라 팀과의 협업 및 커뮤니케이션 능력. 우대: BS in Computer Science 또는 관련 전공, MS/PhD 선호, 기술적으로 복잡하고 임팩트 큰 과제 수행 경험, 멘토링 및 기술 리더십.

기술 스택

PyTorchFSDPDeepSpeedMegatronGPUNVLinkInfiniBandRoCECLIAPIdistributed systems
AI 점수 95core

databricks의 다른 공고

알림

알림이 없습니다