anthropic

Research Engineer, RL Infrastructure and Reliability (Knowledge Work)

개발AI·머신러닝인프라·DevOps연구·R&D

AI 요약

Anthropic의 Knowledge Work 팀에서 Claude 모델의 학습 환경과 평가 시스템의 신뢰성 및 인프라를 담당할 Research Engineer를 채용합니다. 연구원들이 연구에 집중할 수 있도록 시스템을 고도화하고 관측 가능성을 확보하며, 대규모 ML 시스템의 안정성을 책임지는 역할입니다.

주요 업무

• Knowledge Work 학습 환경의 전담 신뢰성 책임자 역할 수행 • 모델 출시 등에 사용되는 표준화된 평가 도구 및 프로세스 관리 • 학습 및 평가 시스템을 위한 자동화된 관측 가능성 도구 및 대시보드 구축 • 부하 테스트 및 스트레스 테스트를 통한 시스템 선제적 강화 • 인프라 관련 이슈 발생 시 파트너 팀과의 협업 및 문제 해결 주도 • 연구원들의 운영 부담 경감 및 연구 집중 환경 조성

자격 요건

• 숙련된 Python 엔지니어링 역량 (프로덕션 수준의 신뢰할 수 있는 코드 작성) • 대규모 ML 또는 분산 시스템 운영 및 장애 대응(On-call) 경험 • SRE 또는 프로덕션 엔지니어링 마인드셋 (SLO, 부하 테스트, 결함 주입 활용) • 학습 환경 및 평가 지표를 이해할 수 있는 기초 ML 지식 • 연구 코드를 읽고 평가 무결성을 판단할 수 있는 능력 • (우대) 5년 이상의 대규모 시스템 운영 경험 • (우대) RL 환경, 에이전트 하네스, LLM 평가 프레임워크 구축 경험 • (우대) 관측 가능성 스택(Metrics, Tracing, Logging) 및 카오스 엔지니어링 경험 • (우대) 데이터 품질 파이프라인 및 대규모 학습/추론 인프라(Schedulers, Orchestration) 숙련도

기술 스택

PythonMLDistributed SystemsSRESLOLLMRLObservabilityMetricsTracingLoggingChaos EngineeringFault InjectionData Quality PipelinesOrchestration

AI 점수 95core

지원하기

Research Engineer, RL Infrastructure and Reliability (Knowledge Work)

AI 요약

주요 업무

자격 요건

기술 스택

anthropic의 다른 공고

알림