
anthropic
Staff Software Engineer, Kubernetes Platform
개발AI·머신러닝인프라·DevOps
AI 요약
Anthropic에서 수십만 개의 노드로 구성된 대규모 Kubernetes 클러스터를 운영하고 확장할 엔지니어를 채용합니다. AI 모델 학습 및 추론을 위한 가속기 플릿 스케줄링 최적화와 컨트롤 플레인 스케일링을 통해 세계 최고 수준의 AI 인프라를 구축하는 역할입니다.
주요 업무
• 가속기 플릿을 위한 Kubernetes 스케줄러 소유, 운영 및 확장 (커스텀 플러그인, 갱 스케줄링 등)
• Kubernetes 컨트롤 플레인(apiserver, etcd 등)의 스케일링 및 병목 현상 해결
• 서비스 디스커버리 등 핵심 클러스터 서비스 설계 및 구축
• 커스텀 컨트롤러, 오퍼레이터 및 CRD 유지보수
• 연구, 학습, 추론 팀과 협력하여 워크로드 요구사항을 플랫폼 기능으로 전환
• 클라우드 제공업체와 협력 및 온콜(On-call) 참여를 통한 인시던트 대응
자격 요건
• 필수 요건: 프로덕션 분산 시스템 구축 및 운영에 관한 상당한 소프트웨어 엔지니어링 경험, Go/Python/Rust/C++ 중 하나 이상의 시스템 언어 능숙도, Kubernetes 내부 구조(스케줄러, 컨트롤러, apiserver 등)에 대한 깊은 실무 경험, 복잡한 스택 전반의 디버깅 능력, 신뢰성 및 정확성을 고려한 시스템 설계 역량.
• 우대 요건: Kubernetes 내부 기여 경험(kube-scheduler, etcd 등), 클러스터 스케줄러 또는 배치 시스템(Kueue, Volcano, Slurm 등) 운영 경험, ML 인프라(GPU, TPU, NCCL 등) 및 토폴로지 인식 배치에 대한 이해, GCP/AWS 및 IaC 경험, 리눅스 커널 튜닝 또는 eBPF 경험, 8년 이상의 관련 업계 경력.
기술 스택
KubernetesGoPythonRustC++etcdapiserverGCPAWSGKEEKSLinuxeBPFNCCLGPUTPUTrainiumKueueVolcanoSlurm