
amazonus
Software Development Manager, AWS Neuron SDK - Distributed Training
개발AI·머신러닝연구·R&D인프라·DevOps
AI 요약
AWS Neuron 팀의 Principal Engineer로서 Trainium/Inferentia 기반 EC2 환경에서 대규모 분산 학습의 안정성·성능 최적화를 주도하는 역할입니다. 수천 노드 규모의 LLM/멀티모달 모델 학습을 PyTorch, JAX, XLA, Neuron compiler/runtime와 연계해 지원하며, 고객 대상 기술 문제 해결과 시스템 전반의 개발·운영 리딩이 핵심입니다.
주요 업무
대규모 분산 학습 시스템의 안정성 및 확장성 설계·구현, Trainium/Neuron 스택에서 LLM 및 멀티모달 transformer 학습 지원, 수천 노드 클러스터에서의 학습 resiliency 개선, PyTorch/JAX/XLA/Neuron compiler/runtime 통합 및 최적화, 성능 튜닝을 통한 학습 효율 극대화, 고객 요구사항 반영 및 기술 문제 해결, 하드웨어-소프트웨어 통합 플랫폼에서 ML 기능이 올바르게 구현·배포되도록 리딩, 엔지니어링 팀 리딩 및 협업 조율.
자격 요건
필수: 프로페셔널 소프트웨어 개발 경험, 객체지향 설계/자료구조/알고리즘 지식, 엔지니어링 팀 관리 경험 3년+, 엔지니어링 팀 직접 근무 경험 7년+, 신규/기존 시스템의 설계 또는 아키텍처링 경험 3년+, 멀티티어 웹 서비스 리딩 경험 8년+, 소프트웨어/하드웨어/네트워크 전 생애주기 엔지니어링 실무 경험(코딩 표준, 코드 리뷰, 소스 관리, 빌드, 테스트, 인증, 라이브사이트 운영), 제품/프로그램 관리팀과의 협업 경험. 우대: 대규모 분산 환경에서의 시스템 설계 및 구축 경험, 수천 노드 규모 분산 학습 경험, 사용자·기술팀·리더십과의 요구사항/기술설계/제품전략 커뮤니케이션 경험, 엔지니어 채용·멘토링·코칭 및 팀 역량 향상 경험, ML/DL 및 GenAI/LLM 관련 실무 경험.
기술 스택
AWS NeuronAnnapurna InferentiaTrainiumEC2Trn1Inf1PyTorchJAXXLANeuron compilerruntimeLLMMM-Llama3.2DiTPixartCLIPGenAI
amazonus의 다른 공고
Software Development Engineer II, AWS DynamoDB Web Service
Software Development Manager, Amazon Connect Customer (AWS)
Software Engineer II, Leo Regulus
개발, AI·머신러닝Software Development Engineer, Aurora DSQL
개발, 인프라·DevOpsSoftware Development Engineer, Amazon Software Builder Experience (ASBX) - Agentic Conversations
개발, AI·머신러닝, 인프라·DevOpsSr. Software Dev Engineer, Amazon Security - Vulnerability Management Engineering
개발, 보안Software Engineer II, Leo Regulus
개발, AI·머신러닝Software Development Engineer
개발, AI·머신러닝, 하드웨어·임베디드, 인프라·DevOps, 보안