anthropic

Research Engineer, Code RL (Reinforcement Learning)

AI·머신러닝개발연구·R&D

AI 요약

Anthropic의 RL 조직 내 Code RL 팀 Research Engineer 채용입니다. 실제 코드베이스와 도구를 활용해 모델이 소프트웨어를 작성·수정·테스트·디버그·배포하도록 강화하는 역할로, RL 환경 설계, 보상/검증기 구축, 실험 수행, 파이프라인 최적화까지 연구와 엔지니어링을 함께 수행합니다. Python 역량과 대규모 모델/분산학습 경험이 있으면 우대합니다.

주요 업무

RL 환경 및 코딩 태스크 설계, reward signal과 verifier 구축, frontier model 대상 training experiment 수행, 모델 성능 향상/비향상 원인 진단, 실험 설계 및 결과 해석, 학습 및 검증 파이프라인의 속도·신뢰성 개선, 실제 코드베이스와 도구를 활용한 end-to-end coding capability 강화, 안전하고 확장 가능한 Code RL 시스템 개발.

자격 요건

필수: 강한 소프트웨어 엔지니어링 역량, 깊은 Python 전문성, async/concurrent programming 경험, 시스템을 end-to-end로 오너십 있게 다루고 디버깅할 수 있는 능력, 연구 탐구와 엔지니어링 구현을 균형 있게 수행할 수 있는 역량, 코드 품질·테스트·성능에 대한 관심, 안전하고 유익한 AI 시스템 개발에 대한 관심. 우대: reinforcement learning, RLHF, post-training, LLM finetuning 경험, coding agents/code-execution sandboxes/eval harnesses/verifiers/developer tooling 구축 경험, program analysis/testing/verification/compilers/formal methods 배경, PyTorch 및 대규모 분산학습 경험, performance profiling 및 ML 시스템 최적화 경험, CUDA/GPU/TPU kernel 경험, virtualization 및 sandboxed code execution 환경 경험.

기술 스택

Pythonasyncconcurrent programmingRLRLHFLLM finetuningPyTorchCUDAGPUTPU

AI 점수 98core

지원하기

Research Engineer, Code RL (Reinforcement Learning)

AI 요약

주요 업무

자격 요건

기술 스택

anthropic의 다른 공고

알림