Jobs
anthropic 로고

anthropic

Staff Software Engineer, Kubernetes Platform

개발AI·머신러닝인프라·DevOps

AI 요약

Anthropic에서 대규모 AI 모델 학습 및 추론을 위한 Kubernetes 플랫폼 엔지니어를 채용합니다. 수십만 개의 노드와 가속기 플릿을 지원하기 위해 Kubernetes 컨트롤 플레인과 스케줄러를 최적화하며, 세계 최고 수준의 AI 인프라를 구축하는 역할을 수행합니다.

주요 업무

• Anthropic 가속기 플릿을 위한 Kubernetes 스케줄러 소유 및 확장(커스텀 플러그인, 토폴로지 인식 스케줄링 등) • 대규모 클러스터 지원을 위한 Kubernetes 컨트롤 플레인(apiserver, etcd 등) 확장 및 최적화 • 서비스 디스커버리 등 핵심 클러스터 서비스 설계 및 운영 • 커스텀 컨트롤러, 오퍼레이터 및 CRD 구축 및 유지보수 • 연구/학습/추론 팀과 협력하여 워크로드 요구사항을 플랫폼 기능으로 구현 • 온콜 참여 및 장애 대응 프로세스 설계

자격 요건

• 필수 요건: 대규모 분산 시스템 구축 및 운영 경험, Go/Python/Rust/C++ 중 하나 이상의 시스템 언어 숙련도, Kubernetes 내부 구조(Scheduler, Controller, API Server 등)에 대한 깊은 이해, 복잡한 스택 전반의 디버깅 능력, 신뢰성 및 정확성을 고려한 시스템 설계 역량. • 우대 요건: Kubernetes 오픈소스 기여 경험, ML 인프라(GPU, TPU, Trainium, NCCL 등) 및 갱 스케줄링 경험, GCP/AWS 및 IaC 숙련도, 리눅스 커널 튜닝/eBPF 경험, 8년 이상의 관련 업계 경력.

기술 스택

KubernetesGoPythonRustC++etcdGCPAWSGKEEKSLinuxeBPFNCCLGPUTPUInfrastructure as Code
AI 점수 88core

anthropic의 다른 공고

알림

알림이 없습니다