Jobs
anthropic 로고

anthropic

Staff+ Software Engineer, Inference Runtime

인프라·DevOps연구·R&D

AI 요약

Anthropic의 Inference 조직에서 Claude 서비스의 추론 런타임을 총괄할 Staff Engineer를 채용합니다. GPU·TPU·Trainium 전반을 아우르는 accelerator-agnostic runtime의 아키텍처, 성능, 검증 체계, 배포 신뢰성을 책임지며, Rust와 Python 기반의 대규모 분산 시스템을 다룹니다. 고성능 시스템 엔지니어링과 ML 인프라 경험이 핵심입니다.

주요 업무

추론 서빙 스택의 shared runtime 아키텍처와 로드맵 수립, accelerator-agnostic runtime의 인터페이스/내부 경계/빌드 구조 설계 및 개선, Rust와 Python 코드베이스에서의 성능 민감한 구현 작업, GPU·TPU·Trainium 전반의 자원 활용도·스케줄링·메모리 관리 최적화, partitioned build 및 change-scoped testing, canary/shadow/rollback 검증 체계 구축, 중앙 인프라 조직과의 협업을 통한 컴파일러·빌드 시스템·툴체인 의사결정, 팀 엔지니어 멘토링 및 기술 기준 향상, 조직 간 기술 조율과 우선순위/트레이드오프 결정.

자격 요건

필수: 시스템 엔지니어링 또는 ML 인프라에 대한 깊은 배경, 성능 프로파일링/지연시간·처리량 최적화/대규모 시스템 디버깅 역량, CUDA/GPU 또는 TPU 또는 Trainium/AWS Neuron 중 최소 하나의 깊은 경험, 수백만 사용자 대상 고성능 분산 시스템 소프트웨어 엔지니어링 경험, SLO 설정 및 escape rate/release time/latency/throughput 개선을 지표로 이끈 경험, 조직 경계를 넘는 기술 정렬 및 영향력 행사 능력, 뛰어난 문서/구두 커뮤니케이션 능력. 우대: 8년 이상 소프트웨어 엔지니어링 경험과 플랫폼/인퍼런스 런타임/ML 인프라 테크리드 경험, XLA/Triton/NeuronX 등 ML compiler toolchains 경험, shadow traffic/canary/baseline comparison/fast rollback 기반 운영 경험, deterministic 또는 simulation-based testing 경험, 대규모 CI/CD 및 accelerator 하드웨어 워크로드 경험, Kubernetes 기반 개발 및 job scheduling 환경 경험, 빠르게 성장하는 AI/ML 회사의 developer productivity 또는 platform engineering 팀 테크리드 경험.

기술 스택

RustPythonCUDAGPUTPUTrainiumAWS NeuronXLATritonNeuronXKubernetesCI/CD
AI 점수 95core

anthropic의 다른 공고

알림

알림이 없습니다