
anthropic
Research Engineer, RL Infrastructure and Reliability (Knowledge Work)
개발AI·머신러닝인프라·DevOps연구·R&D
AI 요약
Anthropic의 Knowledge Work 팀에서 Claude 모델의 학습 환경과 평가 시스템의 신뢰성 및 인프라를 담당할 Research Engineer를 채용합니다. 연구원들이 연구에 집중할 수 있도록 시스템을 고도화하고 관측 가능성을 확보하며, 대규모 ML 시스템의 안정성을 책임지는 역할입니다.
주요 업무
• Knowledge Work 학습 환경의 전담 신뢰성 책임자 역할 수행
• 모델 출시 등에 사용되는 표준화된 평가 도구 및 프로세스 관리
• 학습 및 평가 시스템을 위한 자동화된 관측 가능성 도구 및 대시보드 구축
• 부하 테스트 및 스트레스 테스트를 통한 시스템 선제적 강화
• 인프라 관련 이슈 발생 시 파트너 팀과의 협업 및 문제 해결 주도
• 연구원들의 운영 부담 경감 및 연구 집중 환경 조성
자격 요건
• 숙련된 Python 엔지니어링 역량 (프로덕션 수준의 신뢰할 수 있는 코드 작성)
• 대규모 ML 또는 분산 시스템 운영 및 장애 대응(On-call) 경험
• SRE 또는 프로덕션 엔지니어링 마인드셋 (SLO, 부하 테스트, 결함 주입 활용)
• 학습 환경 및 평가 지표를 이해할 수 있는 기초 ML 지식
• 연구 코드를 읽고 평가 무결성을 판단할 수 있는 능력
• (우대) 5년 이상의 대규모 시스템 운영 경험
• (우대) RL 환경, 에이전트 하네스, LLM 평가 프레임워크 구축 경험
• (우대) 관측 가능성 스택(Metrics, Tracing, Logging) 및 카오스 엔지니어링 경험
• (우대) 데이터 품질 파이프라인 및 대규모 학습/추론 인프라(Schedulers, Orchestration) 숙련도
기술 스택
PythonMLDistributed SystemsSRESLOLLMRLObservabilityMetricsTracingLoggingChaos EngineeringFault InjectionData Quality PipelinesOrchestration