
anthropic
Technical Program Manager, Reliability Engineering
AI·머신러닝인프라·DevOps제품·기획·디자인
AI 요약
Anthropic에서 AI 시스템의 안전성과 신뢰성을 보장하기 위한 인프라 및 평가 플랫폼을 관리할 기술 프로그램 매니저(TPM)를 채용합니다. 이 역할은 세이프가드 엔지니어링의 운영 효율성을 극대화하고, 인시던트 대응, SLO 설정, 플랫폼 마이그레이션 등을 주도하며 AI 모델이 안전하게 배포될 수 있는 환경을 구축하는 데 집중합니다.
주요 업무
세이프가드 엔지니어링 운영 리뷰 및 정기 케이던스 주도; 인시던트 추적 및 포스트모템 실행 관리; 안전 임계 파이프라인에 대한 SLO 설정 및 모니터링; 런북(Runbook) 품질 유지 및 인시던트 소유권 명확화; 플랫폼 마이그레이션 및 인프라 프로젝트 프로그램 매니지먼트; 평가(Evals) 플랫폼 개선 및 인프라 고도화 조율
자격 요건
학사 학위 이상(관련 분야) 또는 그에 준하는 경력; 운영 또는 인프라 중심 환경에서의 기술 프로그램 매니지먼트(TPM) 경험; 프로덕션 ML 시스템 작동 방식에 대한 기술적 이해 및 트리아지 능력; 팀 간 협업 및 영향력 행사 능력; AI 안전에 대한 관심 및 경험; (우대) SRE 관행, 인시던트 관리 프레임워크, 대규모 온콜 운영 경험; (우대) ML 시스템 평가 인프라 구축 경험; (우대) 복잡한 환경에서의 인프라 마이그레이션 경험; (우대) PagerDuty, Datadog 등 모니터링 도구 숙련도
기술 스택
ML SystemsPagerDutyDatadogCloud InfrastructureSLOSRE