
anthropic
Research Engineer, RL Scaling Science
연구·R&DAI·머신러닝개발
AI 요약
Anthropic의 RL Scaling Science 팀에서 대규모 강화학습(RL) 실험을 설계·분석하고, 장기 과제에서의 성능 개선을 측정하는 벤치마크를 구축하며, 검증된 연구 결과를 실제 프런티어 모델의 생산 학습 레시피로 연결할 Research Engineer를 채용합니다. Python과 분산 ML 시스템 경험이 필요합니다.
주요 업무
대규모 RL 실험을 설계, 실행, 해석하고 데이터가 보여주는 것과 보여주지 않는 것을 엄밀하게 추론; horizon, compute, model size 증가에 따른 RL 성능 변화를 조사; long-horizon RL의 진전을 측정 가능하고 재현 가능하게 만드는 벤치마크 구축 및 유지; 검증된 연구 결과를 production training recipes로 전환하고 배포 가능 여부를 판단; 연구와 인프라의 경계에서 발생하는 복잡한 장애를 디버깅; 인접 RL 팀과 협업하여 전체 RL 스택 발전.
자격 요건
필수: Reinforcement Learning, large-scale ML training 또는 인접 분야의 강한 실증 연구 역량, 대규모 실험을 설계부터 해석까지 end-to-end로 수행한 경험, Python 숙련도, 대규모/분산 ML 시스템 경험, 연구와 시스템의 경계에서 디버깅할 수 있는 역량, AI의 사회적 영향과 책임 있는 스케일링에 대한 관심. 우대: long-horizon RL 또는 RL fundamentals 관련 출판/출시 경험, 연구 결과를 production training recipes로 전환한 경험, RL 개입을 통한 대규모 산업 영향 경험, frontier-scale training run 및 긴 trajectory 경험.
기술 스택
PythonReinforcement Learningdistributed ML systems