anthropic

Senior Software Engineer, AI Reliability Engineering

개발AI·머신러닝인프라·DevOps품질·테스트

AI 요약

Anthropic의 AIRE Serving 팀에서 대규모 언어 모델(LLM) 서비스의 신뢰성과 가용성을 책임질 엔지니어를 채용합니다. GPU/TPU 등 AI 가속기 인프라 최적화, 모니터링 시스템 구축, 장애 복구 자동화를 통해 전 세계 사용자에게 안정적인 AI 경험을 제공하는 것이 핵심 목표입니다.

주요 업무

LLM 서빙 및 학습 시스템을 위한 서비스 수준 목표(SLO) 개발; 가용성, 지연 시간 및 주요 지표 모니터링 시스템 설계 및 구현; 수백만 고객을 수용하는 고가용성 모델 서빙 인프라 구축 지원; 다중 지역 및 클라우드 제공업체 간 자동 장애 복구 및 복구 시스템 관리; 주요 AI 서비스의 장애 대응 리드 및 체계적 개선 주도; GPU/TPU/Trainium 활용도 및 효율성 중심의 대규모 AI 인프라 비용 최적화 시스템 구축.

자격 요건

관련 분야 학사 학위 이상 또는 그에 준하는 경험; 대규모 분산 시스템 관측 및 모니터링에 대한 광범위한 경험; 모델 서빙, 배치 추론, 학습 파이프라인 등 AI 인프라 운영에 대한 이해; 비즈니스 크리티컬 서비스를 위한 SLO/SLA 프레임워크 구현 및 유지 관리 경험; 지연 시간/가용성 등 전통적 지표와 모델 성능/학습 수렴 등 AI 특화 지표에 대한 이해; 카오스 엔지니어링 및 체계적인 회복력 테스트 경험; ML 엔지니어와 인프라 팀 간의 원활한 커뮤니케이션 능력; (우대) 1000개 이상의 GPU 규모 모델 학습/서빙 인프라 운영 경험; GPU, TPU, Trainium 등 ML 가속기 활용 경험; RDMA 및 InfiniBand 등 ML 특화 네트워크 최적화 지식; AI 특화 관측 도구 및 프레임워크 전문성; 오픈소스 인프라 또는 ML 도구 기여 경험.

기술 스택

LLMGPUTPUTrainiumRDMAInfiniBandDistributed SystemsSLOSLAChaos EngineeringSaaSObservability

AI 점수 95core

지원하기

Senior Software Engineer, AI Reliability Engineering

AI 요약

주요 업무

자격 요건

기술 스택

anthropic의 다른 공고

알림