Jobs
anthropic 로고

anthropic

Staff Software Engineer, Node Infra

인프라·DevOps개발AI·머신러닝하드웨어·임베디드

AI 요약

앤스로픽(Anthropic)에서 대규모 AI 클러스터의 생애주기를 관리하고 최적화할 Node Infra 엔지니어를 채용합니다. 수만 대 이상의 GPU/TPU 노드를 효율적으로 운영하기 위한 자동화 시스템과 인프라 아키텍처를 설계하며, 전 세계적인 규모의 AI 연구 및 서비스를 뒷받침하는 핵심적인 역할을 수행합니다.

주요 업무

- 노드 생애주기 관리(수급, 설정, 상태 점검, 자동 복구) 기술 전략 및 로드맵 수립 - 다중 클라우드 및 가속기 제품군 전반의 AI 클러스터 구축 및 확장 주도 - 하드웨어 장애 자동 감지, 격리 및 복구 시스템 설계 및 운영 - 인프라 아키텍처 정의 및 기술적 난제 해결 - 클라우드 제공업체 및 내부 연구/제품 팀과 협력하여 장기 컴퓨팅 및 인프라 전략 수립 - 운영 우수성 관행(장애 대응, 포스트모텀, 온콜) 정립 및 발전 - 동료 엔지니어 기술 멘토링 및 코칭

자격 요건

[필수 자격] - 분산 시스템, 안정성 및 클라우드 플랫폼(Kubernetes, IaC, AWS/GCP/Azure)에 대한 깊은 전문성 - 시스템 언어(Rust, Go, Python 중 하나 이상) 및 Terraform 숙련도 - AI 가속기(GPU, TPU, Trainium) 직접 활용 경험 - 복잡한 기술 이니셔티브를 주도한 트랙 레코드 - 시니어 스테이크홀더와의 조율 및 효과적인 커뮤니케이션 능력 [우대 사항] - 8년 이상의 소프트웨어 엔지니어링 경험 및 테크 리드 경험 - 하이퍼스케일(10K+ 노드) 인프라 관리 및 용량 관리 경험 - Kubernetes 내부 구조(scheduler, autoscaler, kubelet 등) 또는 클러스터 오케스트레이션 시스템에 대한 깊이 있는 지식 - 저수준 시스템 경험(커널, 가상화, 드라이버, 펌웨어, 하드웨어 진단 등) - 분산 ML 워크로드를 위한 고성능 네트워킹(EFA, RDMA, InfiniBand) 숙련도 - 오픈소스 프로젝트(Kubernetes, Linux kernel 등) 기여 경험

기술 스택

KubernetesTerraformAWSGCPAzureRustGoPythonGPUTPUTrainiumEFARDMAInfiniBandLinux kernel
AI 점수 95core

anthropic의 다른 공고

알림

알림이 없습니다