Jobs
amazonus 로고

amazonus

Sr. Software Development Engineer, MLOPs

개발AI·머신러닝인프라·DevOps연구·R&D

AI 요약

Amazon DIF(Data & Intelligence Foundation) 팀의 Senior Software Development Engineer로서, 로봇 학습을 위한 대규모 ML 훈련 인프라를 설계·구축·운영하는 역할입니다. Kubernetes(EKS), GPU 분산학습, CI/CD, 실험 추적, 데이터 파이프라인, 모니터링을 다루며 연구 조직과 협업해 최신 ML 모델을 프로덕션 학습 워크플로로 전환합니다.

주요 업무

Kubernetes(EKS)에서 확장 가능한 ML training infrastructure 설계 및 구현, GPU scheduling과 fault-tolerant distributed training 구축, 데이터 수집부터 학습·평가·배포까지의 ML 모델 CI/CD 파이프라인 구축 및 유지, experiment tracking/hyperparameter optimization/reproducibility 도구 개발, 대규모 로보틱스 데이터용 데이터 파이프라인 아키텍처 설계, 연구 과학자와 협업해 최신 ML 모델을 프로덕션 워크플로로 전환, 학습 워크로드 및 모델 성능에 대한 모니터링·알림·관측성 구축, GPU fleet 관리·비용 최적화·용량 계획 수립.

자격 요건

필수: 5년 이상 비인턴 소프트웨어 개발 경험, 1개 이상 프로그래밍 언어 경험 5년 이상, 신규/기존 시스템의 설계 또는 아키텍처(디자인 패턴, 안정성, 확장성) 리딩 경험 5년 이상, 멘토/테크리드/엔지니어링 팀 리딩 경험. 우대: 소프트웨어 개발 전 생애주기(SDLC) 경험, 컴퓨터공학 학사 또는 동등 경력, Machine Learning 및 LLM fundamentals, transformer architecture, training/inference lifecycle, optimization techniques 지식, JAX, PyTorch, vLLM, SGLang, Dynamo, TorchXLA, TensorRT 등 ML 프레임워크 지식.

기술 스택

KubernetesEKSGPUCI/CDJAXPyTorchvLLMSGLangDynamoTorchXLATensorRT
AI 점수 95core

amazonus의 다른 공고

알림

알림이 없습니다