
anthropic
Research Engineer, Code RL (Reinforcement Learning)
AI·머신러닝개발연구·R&D
AI 요약
Anthropic의 RL 조직 내 Code RL 팀 Research Engineer 채용입니다. 실제 코드베이스와 도구를 활용해 모델이 소프트웨어를 작성·수정·테스트·디버그·배포하도록 강화하는 역할로, RL 환경 설계, 보상/검증기 구축, 실험 수행, 파이프라인 최적화까지 연구와 엔지니어링을 함께 수행합니다. Python 역량과 대규모 모델/분산학습 경험이 있으면 우대합니다.
주요 업무
RL 환경 및 코딩 태스크 설계, reward signal과 verifier 구축, frontier model 대상 training experiment 수행, 모델 성능 향상/비향상 원인 진단, 실험 설계 및 결과 해석, 학습 및 검증 파이프라인의 속도·신뢰성 개선, 실제 코드베이스와 도구를 활용한 end-to-end coding capability 강화, 안전하고 확장 가능한 Code RL 시스템 개발.
자격 요건
필수: 강한 소프트웨어 엔지니어링 역량, 깊은 Python 전문성, async/concurrent programming 경험, 시스템을 end-to-end로 오너십 있게 다루고 디버깅할 수 있는 능력, 연구 탐구와 엔지니어링 구현을 균형 있게 수행할 수 있는 역량, 코드 품질·테스트·성능에 대한 관심, 안전하고 유익한 AI 시스템 개발에 대한 관심. 우대: reinforcement learning, RLHF, post-training, LLM finetuning 경험, coding agents/code-execution sandboxes/eval harnesses/verifiers/developer tooling 구축 경험, program analysis/testing/verification/compilers/formal methods 배경, PyTorch 및 대규모 분산학습 경험, performance profiling 및 ML 시스템 최적화 경험, CUDA/GPU/TPU kernel 경험, virtualization 및 sandboxed code execution 환경 경험.
기술 스택
Pythonasyncconcurrent programmingRLRLHFLLM finetuningPyTorchCUDAGPUTPU