
anthropic
Research Engineer, Domain Scaling
AI·머신러닝데이터연구·R&D
AI 요약
Anthropic의 Domain Scaling 팀에서 금융·의료·법률 등 실세계 지식노동 영역에서 Claude의 성능을 높이기 위한 Applied Research/Data Sourcing 역할을 채용합니다. RL 환경 설계, 보상 신호 설계, 데이터 벤더 관리, 평가 및 QA 프레임워크 구축을 통해 모델 역량 향상을 end-to-end로 주도합니다.
주요 업무
도메인별 knowledge work vertical의 데이터 전략을 task sourcing부터 RL training까지 end-to-end로 소유, 외부 데이터 벤더와의 기술적 관계 관리 및 데이터 품질/보상 설계 평가, 도메인 전문가와 협업해 데이터 파이프라인과 평가 체계 설계, 고가치 작업을 위한 새로운 RL env 생성 방법 탐색, reward hacking 탐지를 위한 QA 프레임워크 개발·개선, 데이터 전략 변화가 모델 역량에 미치는 영향을 측정하는 generalization experiment 수행, RL 연구팀 및 제품팀과 협업해 capability goal을 training env/eval로 전환.
자격 요건
필수: 특정 도메인용 대규모 언어모델 파인튜닝 또는 실세계 유스케이스 경험, 강화학습/보상 설계/LLM 학습데이터 큐레이션 경험, 외부 기술 벤더와의 협업 및 빠른 반복 개선 역량, 데이터셋을 읽고 문제를 발견하는 능력, 강한 크로스펑셔널 협업 능력, 다양한 산업에서 AI의 유용성과 접근성을 높이는 데 대한 관심, 적용 연구와 실무 데이터 작업이 결합된 역할에 대한 열의. 우대: production ML systems 학습 경험, LLM eval/benchmark 설계 경험, 특정 vertical 도메인 전문성, 외부 벤더/기술 파트너와의 협업 경험.
기술 스택
large language modelsfine-tuningreinforcement learningreward designtraining data curationQA frameworksevalsbenchmarksproduction ML systems