anthropic

Software Engineer, AI Reliability

개발AI·머신러닝인프라·DevOps

AI 요약

Anthropic에서 자사 AI 모델인 Claude의 안정성과 신뢰성을 책임지는 AI 신뢰성 엔지니어(AIRE)를 채용합니다. 대규모 언어 모델(LLM) 서빙 시스템의 가용성 관리, 모니터링 시스템 구축, 고가용성 인프라 설계 및 장애 대응을 주도하는 역할입니다.

주요 업무

LLM 서빙 시스템의 SLO 개발 및 관리, 토큰 경로 모니터링 및 관측성 시스템 설계/구현, 다중 지역/클라우드 고가용성 서빙 인프라 설계, 주요 AI 서비스 장애 대응 및 복구 주도, 세이프가드 모델 서빙의 신뢰성 지원

자격 요건

학사 학위 이상(또는 이에 준하는 경험), 강력한 분산 시스템/인프라/신뢰성 배경을 가진 소프트웨어 엔지니어 또는 SRE, 뛰어난 커뮤니케이션 및 협업 능력, (우대) 1000개 이상의 GPU 규모 인프라 운영 경험, ML 하드웨어 가속기(GPU, TPU, Trainium) 경험, ML 특화 네트워크(RDMA, InfiniBand) 이해도, AI 전용 관측성 도구 및 프레임워크 전문성, 카오스 엔지니어링 경험

기술 스택

Distributed SystemsInfrastructureSRELLM ServingGPUTPUTrainiumRDMAInfiniBandChaos EngineeringObservabilityCloud Computing

AI 점수 95core

지원하기

Software Engineer, AI Reliability

AI 요약

주요 업무

자격 요건

기술 스택

anthropic의 다른 공고

알림