
anthropic
Software Engineer, Inference Deployment
개발인프라·DevOpsAI·머신러닝
AI 요약
Anthropic에서 Claude 모델의 대규모 추론 배포를 자동화하고 최적화할 Launch Engineering 팀의 소프트웨어 엔지니어를 채용합니다. GPU, TPU, Trainium 등 제한된 하드웨어 자원 환경에서 배포 효율을 극대화하고 안정적인 서비스 업데이트 시스템을 구축하는 것이 핵심입니다.
주요 업무
• GPU, TPU, Trainium 플릿 전반의 배포 오케스트레이션 소유 및 자동화
• 제한된 가속기 예산 내 배포 처리량 극대화를 위한 용량 인식 스케줄링 개선
• 배포 가시성(대시보드, 툴링) 확장 및 추적성 확보
• 파이프라인 아키텍처 최적화를 통한 코드 병합부터 프로덕션까지의 사이클 타임 단축
• 수천 개의 칩을 대상으로 하는 대규모 플릿 롤아웃 전략 최적화
• 신규 모델의 셀프 서비스 온보딩 시스템 구축
자격 요건
• 5년 이상의 대규모 배포, 릴리스 또는 전달 인프라 구축 경험
• 복잡한 상태 머신 및 다단계 파이프라인 시스템 설계 능력
• 자원 제약(플릿 용량, 네트워크 대역폭 등)이 설계에 영향을 미치는 배포 시스템 경험
• Kubernetes 기반 배포, 롤링 업데이트, 컨테이너 오케스트레이션 숙련도
• 백엔드 서비스, 데이터베이스, CLI, 웹 UI를 아우르는 풀스택 작업 능력
• (우대) ML 추론 또는 학습 인프라 배포 경험 (GPU, TPU, Trainium)
• (우대) 용량 계획 또는 자원 제약 스케줄링(bin-packing, 하드웨어 어피니티 등) 배경
• (우대) 점진적 전달(Canary, Blue-Green, 자동 롤백 등) 경험
• (우대) Python 및 Rust 프로덕션 경험
기술 스택
KubernetesPythonRustGPUTPUTrainiumContainersCLIWeb UIDatabases