
anthropic
Technical Program Manager, Compute
인프라·DevOpsAI·머신러닝
AI 요약
Anthropic에서 대규모 AI 모델 학습 및 추론을 위한 컴퓨팅 인프라 프로그램을 총괄할 Technical Program Manager(TPM)를 채용합니다. 컴퓨팅 자원의 기획, 할당, 운영 효율화를 주도하며 연구 및 엔지니어링 팀 간의 가교 역할을 수행합니다.
주요 업무
컴퓨팅 인프라 프로그램의 기획 및 실행 주도, 컴퓨팅 플릿의 공급/수요/활용도 가시성 확보, 클라우드 및 하드웨어 플랫폼 간 용량 관리 및 마이그레이션 리드, 연구 및 엔지니어링 팀 간 우선순위 조정 및 자원 할당, 비용/지연시간/신뢰성 간의 트레이드오프 의사결정 지원, 운영 프로세스 및 프레임워크 개발
자격 요건
인프라, 플랫폼 엔지니어링 또는 컴퓨팅 집약적 환경에서 7년 이상의 TPM 경력, 복잡한 교차 기능 프로그램 리드 경험, 연구 또는 ML 팀과의 협업 및 요구사항 변환 경험, 클라우드 인프라/클러스터 관리/리소스 오케스트레이션 기술 이해, (우대) AWS/GCP/Azure 멀티 클라우드 관리 경험, (우대) Kubernetes/Slurm/Borg/YARN 숙련, (우대) GPU/가속기 인프라 및 대규모 ML 워크로드 경험, (우대) 인프라 가시성 도구 및 비용 모델링 경험
기술 스택
AWSGCPAzureKubernetesSlurmBorgYARNGPUAccelerator