Jobs
amazonus 로고

amazonus

Software Development Manager, AWS Neuron SDK - Distributed Training

개발AI·머신러닝연구·R&D인프라·DevOps

AI 요약

AWS Neuron 팀의 Principal Engineer로서 Trainium/Inferentia 기반 EC2 환경에서 대규모 분산 학습의 안정성·성능 최적화를 주도하는 역할입니다. 수천 노드 규모의 LLM/멀티모달 모델 학습을 PyTorch, JAX, XLA, Neuron compiler/runtime와 연계해 지원하며, 고객 대상 기술 문제 해결과 시스템 전반의 개발·운영 리딩이 핵심입니다.

주요 업무

대규모 분산 학습 시스템의 안정성 및 확장성 설계·구현, Trainium/Neuron 스택에서 LLM 및 멀티모달 transformer 학습 지원, 수천 노드 클러스터에서의 학습 resiliency 개선, PyTorch/JAX/XLA/Neuron compiler/runtime 통합 및 최적화, 성능 튜닝을 통한 학습 효율 극대화, 고객 요구사항 반영 및 기술 문제 해결, 하드웨어-소프트웨어 통합 플랫폼에서 ML 기능이 올바르게 구현·배포되도록 리딩, 엔지니어링 팀 리딩 및 협업 조율.

자격 요건

필수: 프로페셔널 소프트웨어 개발 경험, 객체지향 설계/자료구조/알고리즘 지식, 엔지니어링 팀 관리 경험 3년+, 엔지니어링 팀 직접 근무 경험 7년+, 신규/기존 시스템의 설계 또는 아키텍처링 경험 3년+, 멀티티어 웹 서비스 리딩 경험 8년+, 소프트웨어/하드웨어/네트워크 전 생애주기 엔지니어링 실무 경험(코딩 표준, 코드 리뷰, 소스 관리, 빌드, 테스트, 인증, 라이브사이트 운영), 제품/프로그램 관리팀과의 협업 경험. 우대: 대규모 분산 환경에서의 시스템 설계 및 구축 경험, 수천 노드 규모 분산 학습 경험, 사용자·기술팀·리더십과의 요구사항/기술설계/제품전략 커뮤니케이션 경험, 엔지니어 채용·멘토링·코칭 및 팀 역량 향상 경험, ML/DL 및 GenAI/LLM 관련 실무 경험.

기술 스택

AWS NeuronAnnapurna InferentiaTrainiumEC2Trn1Inf1PyTorchJAXXLANeuron compilerruntimeLLMMM-Llama3.2DiTPixartCLIPGenAI
AI 점수 96core

amazonus의 다른 공고

알림

알림이 없습니다