
anthropic
Staff Infrastructure Engineer, Cluster Infrastructure
개발인프라·DevOps보안
AI 요약
Anthropic에서 대규모 AI 모델 학습 및 Claude 서비스 확장을 위한 클러스터 인프라를 설계하고 운영할 Staff Engineer를 채용합니다. 에이전트 기반 자동화 시스템을 통해 클러스터의 생애주기를 관리하며, 하이퍼스케일 환경에서의 확장성, 보안, 안정성을 책임지는 기술 리더 역할을 수행합니다.
주요 업무
에이전트 기반 클러스터 생애주기 관리(프로비저닝, 업데이트, 해제) 기술 전략 및 로드맵 수립, 팀 간 협업을 통한 신규 컴퓨팅 용량 확보 및 고대역폭 연결성 확보, 클러스터 확장성·균질성·결함 허용 전략 주도, 보안 부서와 협업하여 기본 보안(Secure-by-default) 환경 구축, 운영 우수성 관행(장애 대응, 포스트모텀) 수립 및 전파, 동료 엔지니어 기술 멘토링 및 코칭.
자격 요건
분산 시스템, 안정성 및 클라우드 플랫폼(Kubernetes, IaC, AWS/GCP/Azure)에 대한 깊은 전문성, 시스템 언어(Rust, Go, Python 중 최소 하나) 및 Terraform 숙련도, 다수 팀이 참여하는 복잡한 기술 이니셔티브 리딩 경험, 8년 이상의 소프트웨어 엔지니어링 경력(우대), 하이퍼스케일(100개 이상의 클러스터, 10,000개 이상의 노드) 운영 경험(우대), Kubernetes 내부 구조 및 오케스트레이션 시스템(Mesos, Borg 등) 경험(우대), 클라우드 네트워킹(BGP, VPC, Direct Connect 등) 및 호스트 네트워킹(Cilium, eBPF, Service Mesh) 전문성(우대), 인프라 보안 및 워크플로우 오케스트레이션(Temporal, Argo) 경험(우대).
기술 스택
KubernetesTerraformAWSGCPAzureRustGoPythonMesosBorgCiliumeBPFBGPIstioEnvoyLinkerdmTLSAtlantisTemporalArgo Workflows