anthropic

Software Engineer, Safeguards

개발AI·머신러닝보안연구·R&D

AI 요약

Anthropic의 Safeguards 팀에서 AI 시스템의 안전성과 신뢰성을 보장할 소프트웨어 엔지니어를 채용합니다. AI 모델의 오용을 방지하고 남용을 탐지하는 모니터링 시스템 및 인프라를 구축하며, 연구 팀과 협력하여 모델의 안전성을 강화하는 핵심적인 역할을 수행합니다.

주요 업무

API 파트너의 원치 않는 행동을 감지하고 자동화된 조치를 취하는 모니터링 시스템 개발, 남용 탐지 메커니즘 및 인프라 구축, 연구 팀에 남용 패턴을 공유하여 모델 학습 단계에서의 강화 지원, 대규모 실시간 안전 메커니즘 개선을 위한 다층 방어 체계 구축, 부적절한 콘텐츠 또는 계정에 대한 사용자 보고서 분석.

자격 요건

컴퓨터 공학 학사 학위 이상 또는 그에 준하는 경력, 5~10년 이상의 소프트웨어 엔지니어링 경력(무결성, 스팸, 사기, 남용 탐지 및 완화 분야 선호), Python 및 TypeScript 숙련도, 풀스택 작업 능력, 복잡한 기술 개념을 비기술적 이해관계자에게 설명할 수 있는 커뮤니케이션 능력. (우대사항) AI/ML 시스템을 위한 신뢰 및 안전 탐지 메커니즘 구축 경험, 프롬프트 엔지니어링 및 적대적 공격(Jailbreak) 대응 경험, 운영 팀과 협력하여 내부 도구 구축 경험.

기술 스택

PythonTypeScript

AI 점수 95core

지원하기

Software Engineer, Safeguards

AI 요약

주요 업무

자격 요건

기술 스택

anthropic의 다른 공고

알림