amazonus

ML Kernel Performance Engineer, Edge AI and Science

개발AI·머신러닝연구·R&D

AI 요약

Amazon Devices의 AI Platform 팀에서 고성능 ML Kernel Performance Engineer를 채용합니다. 핵심 업무는 CUDA/Triton 기반의 GPU 커널을 설계·최적화해 양자화 학습, 희소 연산, 저비트 추론의 성능을 극대화하는 것입니다. 대규모 모델 압축과 엣지/클라우드 배포를 위한 커널 라이브러리, 성능 분석 도구, 벤치마크 인프라도 함께 구축합니다.

주요 업무

고성능 CUDA 및 Triton 커널 설계·구현, QAT/희소 행렬/저비트 추론용 커널 최적화, 프로파일링 기반 병목 분석 및 성능 개선, operator fusion/tiling/memory access optimization/scheduling 적용, 팀 내 누구나 사용할 수 있는 커널 개발 하네스 구축, training kernels 라이브러리 유지보수 및 CI/예제 관리, Applied Scientists·compiler engineers·hardware architects와의 공동 설계, cloud 및 edge용 inference kernel 개발, 성능 회귀 테스트 및 벤치마킹 인프라 구축.

자격 요건

필수: 3년 이상 비인턴 전문 소프트웨어 개발 경험, 2년 이상 설계/아키텍처 경험, Python 및/또는 C++ 지식, CUDA kernels 또는 ML/low-level kernels 경험, 혹은 GPU/Neuron/TPU 등 AI 가속 하드웨어에서 LLM을 개발·배포한 경험. 우대: 컴퓨터공학 학사 또는 동등 학위, SDLC 전반 경험, GPU kernel optimization 및 GPGPU(CUDA, Triton, SYCL, ROCm) 경험, GPU low-level 성능 최적화 역량, GPU 메모리 계층 이해(shared memory, L1/L2 cache, register pressure, memory coalescing), ML/HPC 고성능 라이브러리 개발 경험, PyTorch/TensorFlow 및 GPU 백엔드 지식, custom PyTorch operators(torch.autograd.Function, C++ extensions) 구현 경험, 병렬 프로그래밍 최적화 경험, neural network compression(quantization, pruning, knowledge distillation, low-rank factorization) 배경, mixed-precision training/inference(FP16, BF16, FP8, INT8, INT4) 경험, TensorRT/ONNX Runtime/vLLM 등 추론 최적화 경험, Transformer/attention 구조 이해, AWS Trainium/Inferentia 또는 NKI 경험, edge deployment/model compilation/hardware-aware optimization 경험.

기술 스택

PythonC++CUDATritonPyTorchTensorFlowtorch.autograd.FunctionC++ extensionsSYCLROCmTensorRTONNX RuntimevLLMAWS TrainiumInferentiaNKIFP16BF16FP8INT8INT4

AI 점수 95core

지원하기

ML Kernel Performance Engineer, Edge AI and Science

AI 요약

주요 업무

자격 요건

기술 스택

amazonus의 다른 공고

알림