Jobs
anthropic 로고

anthropic

Staff Software Engineer, Node Infra

인프라·DevOps개발AI·머신러닝하드웨어·임베디드

AI 요약

앤스로픽(Anthropic)에서 AI 모델 학습 및 서비스 확장을 위한 대규모 노드 인프라를 설계하고 운영할 Staff 인프라 엔지니어를 채용합니다. GPU, TPU 등 가속기 클러스터의 자동화된 관리와 안정성 확보를 통해 AI 연구의 토대를 구축하는 역할입니다.

주요 업무

노드 수명 주기 관리(수집, 가동, 상태 점검, 자동 복구) 기술 전략 및 로드맵 수립; 멀티 클라우드 및 가속기 제품군 전반의 AI 클러스터 구축 및 확장 주도; 하드웨어 결함 자동 감지, 격리 및 복구 시스템 설계 및 운영; 인프라 아키텍처 정의 및 클라우드 제공업체와의 협력을 통한 컴퓨팅 전략 수립; 운영 우수성 관행(장애 대응, 포스트모텀) 확립; 동료 엔지니어 기술 멘토링.

자격 요건

분산 시스템, 신뢰성 공학 및 클라우드 플랫폼(Kubernetes, IaC, AWS/GCP/Azure)에 대한 깊은 전문성; Rust, Go, Python 중 최소 하나 이상의 시스템 언어 숙련도; Terraform을 활용한 IaC 숙련도; GPU, TPU, Trainium 등 머신러닝 가속기 실무 경험; 대규모 기술 이니셔티브 리딩 경험; (우대) 8년 이상의 소프트웨어 엔지니어링 경력; 하이퍼스케일(10K+ 노드) 인프라 관리 경험; Kubernetes 내부 구조(scheduler, autoscaler 등) 이해; 커널, 가상화, 드라이버, 펌웨어 등 저수준 시스템 경험; 고성능 네트워킹(EFA, RDMA, InfiniBand) 지식.

기술 스택

KubernetesTerraformAWSGCPAzureRustGoPythonGPUTPUTrainiumEFARDMAInfiniBandLinux kernel
AI 점수 90core

anthropic의 다른 공고

알림

알림이 없습니다