anthropic

Research Engineer, Safeguards Labs

개발AI·머신러닝보안연구·R&D

AI 요약

앤스로픽(Anthropic)의 Safeguards Labs에서 AI 모델 Claude의 안전성을 강화하고 오용을 방지하기 위한 연구 엔지니어를 채용합니다. 연구와 엔지니어링의 접점에서 새로운 안전 프로토타입을 개발하고, 대규모 데이터를 분석하여 탐지 시스템을 구축하며, 모델이 위험한 요청을 거부하도록 훈련하는 방법론을 연구하는 핵심적인 역할을 수행합니다.

주요 업무

Claude 오용 감지 및 악성 조직 식별 연구 프로젝트 리드. 모델 사용 데이터를 분석하여 남용 패턴 파악 및 분류기/탐지 시스템 구축. 실시간 세이프가드 경로에 적용할 프로토타입 개발 및 기술 이전. 에이전트 워크플로우에서의 남용 행위 감지 및 모델의 안전 훈련 방법론 조사. 세이프가드 효과 측정을 위한 평가 지표 및 방법론 구축. 연구 결과 문서화 및 유관 부서 공유.

자격 요건

학사 학위 이상 또는 그에 준하는 경험. AI, ML, 보안, 무결성(Integrity) 분야의 연구 프로젝트 주도 경험. Python 숙련도 및 대규모 데이터셋 처리 능력. LLM 작동 방식(Sampling, Prompting, Training)에 대한 이해. (우대) 어뷰징/사기/보안용 ML 모델 구축 경험, LLM 평가 방법론 지식, 에이전트 환경 경험, 레드팀/탈옥 연구/해석 가능성 연구 경험, 연구 프로토타입의 프로덕션 이관 경험.

기술 스택

PythonLLMMachine LearningClassifiersRed TeamingJailbreak ResearchInterpretabilitySteering Vectors

AI 점수 98core

지원하기

Research Engineer, Safeguards Labs

AI 요약

주요 업무

자격 요건

기술 스택

anthropic의 다른 공고

알림