
anthropic
Staff Engineer, Datacenter Server Lifecycle
인프라·DevOps보안하드웨어·임베디드
AI 요약
Anthropic에서 데이터센터 서버의 전체 생애주기를 관리할 Staff Engineer를 채용합니다. 서버 프로비저닝부터 유지보수, 폐기까지의 자동화 프로세스를 구축하며, 특히 AI 모델 학습을 위한 대규모 GPU 인프라의 보안과 신뢰성을 확보하는 핵심적인 역할을 수행합니다. 하드웨어와 소프트웨어의 접점에서 AI 인프라의 물리적 기반을 설계하는 직무입니다.
주요 업무
수만 대 규모의 서버 데이터센터 자동화 구축 리드, 서버 생애주기(프로비저닝, 배포, 유지보수, 폐기) 전략 수립 및 운영 절차 자동화, 인프라 보안팀과 협력하여 신뢰할 수 있는 컴퓨팅 표준 설계 및 적용, 네트워킹 팀과 협업하여 사이트 간 연결성 확보, 전체 서버 플릿의 상태 및 구성을 추적하는 툴링 구축.
자격 요건
랙 배포, 케이블링, 대규모 장애 대응 등 서버 하드웨어 실무 경험, 자산 추적 및 프로비저닝 등 하드웨어 생애주기 관리 이해, Python/Rust/Go/Java 중 1개 이상의 프로그래밍 숙련도, Kubernetes/IaC/AWS/GCP 등 현대적 클라우드 인프라 지식, (우대) 8년 이상의 데이터센터 운영 경험, NVIDIA A100/H100, AMD MI300, Google TPU 등 AI 가속기 하드웨어 경험, coreboot/LinuxBoot 등 프로비저닝 도구 익숙함, TPM/Secure Boot/하드웨어 증명 등 보안 개념 보유자.
기술 스택
PythonRustGoJavaKubernetesInfrastructure as CodeAWSGCPNVIDIA A100NVIDIA H100AMD MI300Google TPUsAWS TrainiumcorebootLinuxBootu-rootTPMSecure Boot