
anthropic
Staff Software Engineer, Node Infra
인프라·DevOps개발AI·머신러닝하드웨어·임베디드
AI 요약
앤스로픽(Anthropic)에서 대규모 AI 클러스터의 생애주기를 관리하고 최적화할 Node Infra 엔지니어를 채용합니다. 수만 대 이상의 GPU/TPU 노드를 효율적으로 운영하기 위한 자동화 시스템과 인프라 아키텍처를 설계하며, 전 세계적인 규모의 AI 연구 및 서비스를 뒷받침하는 핵심적인 역할을 수행합니다.
주요 업무
- 노드 생애주기 관리(수급, 설정, 상태 점검, 자동 복구) 기술 전략 및 로드맵 수립
- 다중 클라우드 및 가속기 제품군 전반의 AI 클러스터 구축 및 확장 주도
- 하드웨어 장애 자동 감지, 격리 및 복구 시스템 설계 및 운영
- 인프라 아키텍처 정의 및 기술적 난제 해결
- 클라우드 제공업체 및 내부 연구/제품 팀과 협력하여 장기 컴퓨팅 및 인프라 전략 수립
- 운영 우수성 관행(장애 대응, 포스트모텀, 온콜) 정립 및 발전
- 동료 엔지니어 기술 멘토링 및 코칭
자격 요건
[필수 자격]
- 분산 시스템, 안정성 및 클라우드 플랫폼(Kubernetes, IaC, AWS/GCP/Azure)에 대한 깊은 전문성
- 시스템 언어(Rust, Go, Python 중 하나 이상) 및 Terraform 숙련도
- AI 가속기(GPU, TPU, Trainium) 직접 활용 경험
- 복잡한 기술 이니셔티브를 주도한 트랙 레코드
- 시니어 스테이크홀더와의 조율 및 효과적인 커뮤니케이션 능력
[우대 사항]
- 8년 이상의 소프트웨어 엔지니어링 경험 및 테크 리드 경험
- 하이퍼스케일(10K+ 노드) 인프라 관리 및 용량 관리 경험
- Kubernetes 내부 구조(scheduler, autoscaler, kubelet 등) 또는 클러스터 오케스트레이션 시스템에 대한 깊이 있는 지식
- 저수준 시스템 경험(커널, 가상화, 드라이버, 펌웨어, 하드웨어 진단 등)
- 분산 ML 워크로드를 위한 고성능 네트워킹(EFA, RDMA, InfiniBand) 숙련도
- 오픈소스 프로젝트(Kubernetes, Linux kernel 등) 기여 경험
기술 스택
KubernetesTerraformAWSGCPAzureRustGoPythonGPUTPUTrainiumEFARDMAInfiniBandLinux kernel