
anthropic
Software Engineer, Safeguards Evals
연구·R&D개발AI·머신러닝데이터
AI 요약
Anthropic의 안전성 조사 에이전트 평가 인프라를 설계·구축하는 Applied ML Research/Engineering 성격의 포지션입니다. 실제 악용 트래픽을 기반으로 데이터셋과 평가 하네스를 만들고, 탐지 정밀도·재현율·강건성을 측정해 릴리스/회귀 파이프라인에 반영합니다. Python, 데이터 पाइ프라인, LLM 및 에이전트 시스템 이해가 핵심입니다.
주요 업무
에이전틱 조사 시스템의 평가 하네스 구축 및 운영, harm area별 테스트 케이스·메트릭·채점 방식 정의, 실제 악용을 반영한 고품질 평가 데이터셋 구성, 탐지 정밀도/재현율·조사 품질·강건성 측정 및 개선 주도, 커버리지 분석을 통한 측정 공백 파악과 평가 고도화, 모든 에이전트 변경에 대해 동작하는 회귀·릴리스 파이프라인 제품화, 정책 전문가가 독립적으로 평가를 작성·실행·반복할 수 있는 도구 개발, Claude 안전 조사 역량 향상을 위한 RL 환경 구축.
자격 요건
필수: Python 숙련, 스택 전반에 대한 이해, 데이터 पाइ프라인 구축 및 유지 경험, LLM 및 도구 사용·다단계 추론을 포함한 에이전틱 시스템의 능력과 한계에 대한 이해, 대규모 데이터에서 신뢰할 수 있는 인사이트를 도출하는 데이터 분석 역량, 연구 프로토타이핑과 프로덕션 코드 사이를 유연하게 오갈 수 있는 능력, 모호한 문제를 구체적이고 테스트 가능한 실험으로 전환하는 능력. 우대: 6년 이상 소프트웨어 엔지니어링 경험, 평가 프레임워크/벤치마크/자동 채점 시스템 구축 경험, trust & safety·콘텐츠 모더레이션·악용 탐지 경험, red teaming·adversarial testing·jailbreak 연구 경험, synthetic data generation/augmentation 경험, distributed systems 또는 대규모 데이터 처리 경험, prompt engineering 또는 LLM-powered application 구축 경험.
기술 스택
PythonLLMsdata pipelinesagentic systemsprompt engineeringdistributed systemslarge-scale data processingRLsynthetic data generation