Jobs
amazonus 로고

amazonus

Software Development Manager, AWS Neuron SDK - Distributed Training

AI·머신러닝개발경영지원

AI 요약

AWS Neuron Training 팀의 Software Development Manager로서 Trainium 기반 ML 가속기와 서버용 소프트웨어 스택의 개발을 이끌며, 대규모 분산 학습 지원과 성능 최적화, 고객 온보딩을 책임지는 리더십 포지션입니다. PyTorch/JAX, FSDP, DeepSpeed, Megatron 등 분산 학습 기술과 ML 시스템 경험이 중요하며, 제품·프레임워크·고객 대응 조직과 협업해 LLM·MoE·멀티모달 모델 지원을 강화합니다.

주요 업무

ML training 고객을 Neuron SDK/Trainium 플랫폼에 온보딩하도록 팀 리드, 모델 평가부터 대규모 프로덕션 학습까지 고객 여정 총괄, MFU 향상을 위한 성능 분석·프로파일링·튜닝 추진, 신규 고객 모델의 time-to-first-training 단축을 위한 툴링·자동화·문서화 구축, 컴파일러/런타임/프레임워크 팀과 협력해 병목 해결, FSDP·DeepSpeed·Megatron 등 분산 학습 지원 프로세스 개발, LLM·MoE·멀티모달 등 프런티어 모델 아키텍처 지원 기술 전략 수립, 제품관리·개발자 관계·고객 대응 팀과 협업, 고성과 ML systems engineers 채용·육성·관리.

자격 요건

필수: PyTorch 또는 JAX 소프트웨어 경험, 엔지니어링 팀 관리 3년 이상, 엔지니어링 팀 내 직접 근무 7년 이상, 신규/기존 시스템의 설계·아키텍처 경험 3년 이상, 제품 또는 프로그램 관리 팀과의 협업 경험, 딥러닝/머신러닝 및 모델 학습 워크플로우 경험 3년 이상, 대규모 분산 학습(multi-node, multi-accelerator) 경험. 우대: GPU/Neuron/TPU 등 AI 가속 하드웨어에서 LLM 개발·배포 경험, 과학자 또는 ML 엔지니어 직접 관리 경험, 대규모 시스템 디버깅/프로파일링/베스트 프랙티스 구현 경험, CUDA kernels 또는 ML/low-level kernels 경험, 딥러닝 학습 워크로드 성능 분석·최적화 경험.

기술 스택

AWS NeuronInferentiaTrainiumPyTorchJAXFSDPDeepSpeedMegatronLLMsMoEmulti-modalCUDA
AI 점수 95core

amazonus의 다른 공고

알림

알림이 없습니다