
amazonus
ML Accelerator Performance Validation Engineer, Post Silicon Validation
하드웨어·임베디드데이터연구·R&D
AI 요약
AWS Annapurna Labs의 Post-Silicon Validation 직무로, AI/ML 학습용 커스텀 칩의 실제 성능을 벤치마크·프로파일링·분석해 아키텍처 목표 달성 여부를 검증합니다. 하드웨어 성능 카운터, 컴퓨터 아키텍처, 통계 분석 역량이 중요하며, PyTorch/JAX와 LLM·트랜스포머 워크로드 이해가 요구됩니다.
주요 업무
벤치마크를 설계·실행하여 마이크로아키텍처부터 전체 모델 학습까지 성능 측정, compute throughput·memory bandwidth·interconnect latency 분석, transformer/LLM/vision 등 실제 ML 워크로드를 칩에서 프로파일링, 성능 병목 식별 및 아키텍처 팀과 최적화 협업, 자동화된 성능 회귀 대시보드와 추적 인프라 구축, 실측 결과를 RTL 시뮬레이션·에뮬레이션 예측과 상관 분석.
자격 요건
필수: 3년 이상 비인턴 소프트웨어 개발 경험, 2년 이상 시스템 설계/아키텍처 경험, Machine Learning 및 Large Language Model 기본 이해(아키텍처, training/inference lifecycle, 모델 실행 최적화) 또는 PyTorch/JAX 경험, 컴퓨터공학/공학/수학 관련 학사 또는 동등 경험, Java/C++/Python 등 관련 언어 경험, 하드웨어 성능 카운터 및 프로파일링 도구 활용 경험 3년 이상, 메모리 계층(cache, DRAM, HBM), compute pipeline, interconnect topology 등 컴퓨터 아키텍처 이해, 통계 방법·회귀분석·데이터 시각화 경험. 우대: 전체 SDLC 경험(coding standards, code review, source control, build, testing, operations), CUDA kernels 또는 ML/저수준 커널 경험, GPU/Neuron/TPU 등 AI 가속기에서 LLM 개발·배포 경험, AllReduce/AllGather 및 스케일링 지식, HBM/PCIe/DMA bandwidth characterization 경험.
기술 스택
PythonJavaC++PyTorchJAXCUDAHBMPCIeDMAAllReduceAllGatherRTLsimulationemulation
amazonus의 다른 공고
Software Development Engineer II, AWS DynamoDB Web Service
Software Development Manager, Amazon Connect Customer (AWS)
Software Engineer II, Leo Regulus
개발, AI·머신러닝Software Development Engineer, Aurora DSQL
개발, 인프라·DevOpsSoftware Development Engineer, Amazon Software Builder Experience (ASBX) - Agentic Conversations
개발, AI·머신러닝, 인프라·DevOpsSr. Software Dev Engineer, Amazon Security - Vulnerability Management Engineering
개발, 보안Software Development Engineer
개발, AI·머신러닝, 하드웨어·임베디드, 인프라·DevOps, 보안Software Development Engineer, AWS Athena, AWS Athena
개발, 데이터