anthropic

Senior Software Engineer, AI Reliability Engineering

개발AI·머신러닝인프라·DevOps

AI 요약

Anthropic에서 대규모 언어 모델(LLM) 서빙 및 훈련 시스템의 신뢰성을 책임질 AIRE Serving 팀 엔지니어를 채용합니다. GPU/TPU 등 하드웨어 가속기 기반의 인프라 최적화와 고가용성 시스템 설계를 통해 사용자에게 안정적인 AI 경험을 제공하는 역할을 수행합니다.

주요 업무

• LLM 서빙 및 훈련 시스템을 위한 서비스 수준 목표(SLO) 개발 및 관리 • 가용성, 지연 시간 등 주요 지표에 대한 모니터링 시스템 설계 및 구현 • 수백만 고객과 대규모 내부 워크로드를 처리하는 고가용성 모델 서빙 인프라 설계 • 멀티 리전 및 멀티 클라우드 환경의 자동 장애 조치(Failover) 및 복구 시스템 관리 • 크리티컬 AI 서비스의 장애 대응 리드 및 시스템 개선 • GPU/TPU/Trainium 활용도 및 효율성 중심의 대규모 AI 인프라 비용 최적화

자격 요건

• 대규모 분산 시스템 관측성 및 모니터링에 대한 광범위한 경험 • 모델 서빙, 배치 추론, 훈련 파이프라인 등 AI 인프라 운영에 대한 이해 • 비즈니스 크리티컬 서비스를 위한 SLO/SLA 프레임워크 구현 및 유지 관리 경험 • 전통적 지표(지연 시간, 가용성)와 AI 특정 지표(모델 성능, 훈련 수렴)에 대한 숙련도 • 카오스 엔지니어링 및 체계적인 회복력 테스트 경험 • ML 엔지니어와 인프라 팀 간의 원활한 소통 능력 • (우대) 1,000개 이상의 GPU 규모 인프라 운영 경험 • (우대) GPU, TPU, Trainium 등 ML 하드웨어 가속기 활용 경험 • (우대) RDMA, InfiniBand 등 ML 특화 네트워킹 최적화 이해 • (우대) AI 전용 관측 도구 및 프레임워크 전문성

기술 스택

GPUTPUTrainiumRDMAInfiniBandDistributed SystemsSaaSSLOSLAChaos EngineeringMonitoringObservability

AI 점수 90core

지원하기

Senior Software Engineer, AI Reliability Engineering

AI 요약

주요 업무

자격 요건

기술 스택

anthropic의 다른 공고

알림