
anthropic
Staff Software Engineer, Kubernetes Platform
개발AI·머신러닝인프라·DevOps
AI 요약
Anthropic에서 대규모 AI 모델 학습 및 추론을 위한 Kubernetes 플랫폼 엔지니어를 채용합니다. 수십만 개의 노드와 가속기 플릿을 지원하기 위해 Kubernetes 컨트롤 플레인과 스케줄러를 최적화하며, 세계 최고 수준의 AI 인프라를 구축하는 역할을 수행합니다.
주요 업무
• Anthropic 가속기 플릿을 위한 Kubernetes 스케줄러 소유 및 확장(커스텀 플러그인, 토폴로지 인식 스케줄링 등)
• 대규모 클러스터 지원을 위한 Kubernetes 컨트롤 플레인(apiserver, etcd 등) 확장 및 최적화
• 서비스 디스커버리 등 핵심 클러스터 서비스 설계 및 운영
• 커스텀 컨트롤러, 오퍼레이터 및 CRD 구축 및 유지보수
• 연구/학습/추론 팀과 협력하여 워크로드 요구사항을 플랫폼 기능으로 구현
• 온콜 참여 및 장애 대응 프로세스 설계
자격 요건
• 필수 요건: 대규모 분산 시스템 구축 및 운영 경험, Go/Python/Rust/C++ 중 하나 이상의 시스템 언어 숙련도, Kubernetes 내부 구조(Scheduler, Controller, API Server 등)에 대한 깊은 이해, 복잡한 스택 전반의 디버깅 능력, 신뢰성 및 정확성을 고려한 시스템 설계 역량.
• 우대 요건: Kubernetes 오픈소스 기여 경험, ML 인프라(GPU, TPU, Trainium, NCCL 등) 및 갱 스케줄링 경험, GCP/AWS 및 IaC 숙련도, 리눅스 커널 튜닝/eBPF 경험, 8년 이상의 관련 업계 경력.
기술 스택
KubernetesGoPythonRustC++etcdGCPAWSGKEEKSLinuxeBPFNCCLGPUTPUInfrastructure as Code