
anthropic
Senior Software Engineer, AI Reliability Engineering
개발AI·머신러닝인프라·DevOps
AI 요약
Anthropic에서 대규모 언어 모델(LLM) 서빙 및 훈련 시스템의 신뢰성을 책임질 AIRE Serving 팀 엔지니어를 채용합니다. GPU/TPU 등 하드웨어 가속기 기반의 인프라 최적화와 고가용성 시스템 설계를 통해 사용자에게 안정적인 AI 경험을 제공하는 역할을 수행합니다.
주요 업무
• LLM 서빙 및 훈련 시스템을 위한 서비스 수준 목표(SLO) 개발 및 관리
• 가용성, 지연 시간 등 주요 지표에 대한 모니터링 시스템 설계 및 구현
• 수백만 고객과 대규모 내부 워크로드를 처리하는 고가용성 모델 서빙 인프라 설계
• 멀티 리전 및 멀티 클라우드 환경의 자동 장애 조치(Failover) 및 복구 시스템 관리
• 크리티컬 AI 서비스의 장애 대응 리드 및 시스템 개선
• GPU/TPU/Trainium 활용도 및 효율성 중심의 대규모 AI 인프라 비용 최적화
자격 요건
• 대규모 분산 시스템 관측성 및 모니터링에 대한 광범위한 경험
• 모델 서빙, 배치 추론, 훈련 파이프라인 등 AI 인프라 운영에 대한 이해
• 비즈니스 크리티컬 서비스를 위한 SLO/SLA 프레임워크 구현 및 유지 관리 경험
• 전통적 지표(지연 시간, 가용성)와 AI 특정 지표(모델 성능, 훈련 수렴)에 대한 숙련도
• 카오스 엔지니어링 및 체계적인 회복력 테스트 경험
• ML 엔지니어와 인프라 팀 간의 원활한 소통 능력
• (우대) 1,000개 이상의 GPU 규모 인프라 운영 경험
• (우대) GPU, TPU, Trainium 등 ML 하드웨어 가속기 활용 경험
• (우대) RDMA, InfiniBand 등 ML 특화 네트워킹 최적화 이해
• (우대) AI 전용 관측 도구 및 프레임워크 전문성
기술 스택
GPUTPUTrainiumRDMAInfiniBandDistributed SystemsSaaSSLOSLAChaos EngineeringMonitoringObservability