
amazonus
Sr. Software Development Engineer, MLOPs
개발AI·머신러닝인프라·DevOps연구·R&D
AI 요약
Amazon DIF(Data & Intelligence Foundation) 팀의 Senior Software Development Engineer로서, 로봇 학습을 위한 대규모 ML 훈련 인프라를 설계·구축·운영하는 역할입니다. Kubernetes(EKS), GPU 분산학습, CI/CD, 실험 추적, 데이터 파이프라인, 모니터링을 다루며 연구 조직과 협업해 최신 ML 모델을 프로덕션 학습 워크플로로 전환합니다.
주요 업무
Kubernetes(EKS)에서 확장 가능한 ML training infrastructure 설계 및 구현, GPU scheduling과 fault-tolerant distributed training 구축, 데이터 수집부터 학습·평가·배포까지의 ML 모델 CI/CD 파이프라인 구축 및 유지, experiment tracking/hyperparameter optimization/reproducibility 도구 개발, 대규모 로보틱스 데이터용 데이터 파이프라인 아키텍처 설계, 연구 과학자와 협업해 최신 ML 모델을 프로덕션 워크플로로 전환, 학습 워크로드 및 모델 성능에 대한 모니터링·알림·관측성 구축, GPU fleet 관리·비용 최적화·용량 계획 수립.
자격 요건
필수: 5년 이상 비인턴 소프트웨어 개발 경험, 1개 이상 프로그래밍 언어 경험 5년 이상, 신규/기존 시스템의 설계 또는 아키텍처(디자인 패턴, 안정성, 확장성) 리딩 경험 5년 이상, 멘토/테크리드/엔지니어링 팀 리딩 경험. 우대: 소프트웨어 개발 전 생애주기(SDLC) 경험, 컴퓨터공학 학사 또는 동등 경력, Machine Learning 및 LLM fundamentals, transformer architecture, training/inference lifecycle, optimization techniques 지식, JAX, PyTorch, vLLM, SGLang, Dynamo, TorchXLA, TensorRT 등 ML 프레임워크 지식.
기술 스택
KubernetesEKSGPUCI/CDJAXPyTorchvLLMSGLangDynamoTorchXLATensorRT
amazonus의 다른 공고
Software Development Engineer II, AWS DynamoDB Web Service
Software Development Manager, Amazon Connect Customer (AWS)
Software Engineer II, Leo Regulus
개발, AI·머신러닝Software Development Engineer, Aurora DSQL
개발, 인프라·DevOpsSoftware Development Engineer, Amazon Software Builder Experience (ASBX) - Agentic Conversations
개발, AI·머신러닝, 인프라·DevOpsSr. Software Dev Engineer, Amazon Security - Vulnerability Management Engineering
개발, 보안Software Engineer II, Leo Regulus
개발, AI·머신러닝Software Development Engineer
개발, AI·머신러닝, 하드웨어·임베디드, 인프라·DevOps, 보안