
anthropic
Senior Software Engineer, AI Reliability Engineering
개발AI·머신러닝인프라·DevOps품질·테스트
AI 요약
Anthropic의 AIRE Serving 팀에서 대규모 언어 모델(LLM) 서비스의 신뢰성과 가용성을 책임질 엔지니어를 채용합니다. GPU/TPU 등 AI 가속기 인프라 최적화, 모니터링 시스템 구축, 장애 복구 자동화를 통해 전 세계 사용자에게 안정적인 AI 경험을 제공하는 것이 핵심 목표입니다.
주요 업무
LLM 서빙 및 학습 시스템을 위한 서비스 수준 목표(SLO) 개발; 가용성, 지연 시간 및 주요 지표 모니터링 시스템 설계 및 구현; 수백만 고객을 수용하는 고가용성 모델 서빙 인프라 구축 지원; 다중 지역 및 클라우드 제공업체 간 자동 장애 복구 및 복구 시스템 관리; 주요 AI 서비스의 장애 대응 리드 및 체계적 개선 주도; GPU/TPU/Trainium 활용도 및 효율성 중심의 대규모 AI 인프라 비용 최적화 시스템 구축.
자격 요건
관련 분야 학사 학위 이상 또는 그에 준하는 경험; 대규모 분산 시스템 관측 및 모니터링에 대한 광범위한 경험; 모델 서빙, 배치 추론, 학습 파이프라인 등 AI 인프라 운영에 대한 이해; 비즈니스 크리티컬 서비스를 위한 SLO/SLA 프레임워크 구현 및 유지 관리 경험; 지연 시간/가용성 등 전통적 지표와 모델 성능/학습 수렴 등 AI 특화 지표에 대한 이해; 카오스 엔지니어링 및 체계적인 회복력 테스트 경험; ML 엔지니어와 인프라 팀 간의 원활한 커뮤니케이션 능력; (우대) 1000개 이상의 GPU 규모 모델 학습/서빙 인프라 운영 경험; GPU, TPU, Trainium 등 ML 가속기 활용 경험; RDMA 및 InfiniBand 등 ML 특화 네트워크 최적화 지식; AI 특화 관측 도구 및 프레임워크 전문성; 오픈소스 인프라 또는 ML 도구 기여 경험.
기술 스택
LLMGPUTPUTrainiumRDMAInfiniBandDistributed SystemsSLOSLAChaos EngineeringSaaSObservability