
anthropic
Research Scientist, Interpretability
AI·머신러닝연구·R&D개발
AI 요약
Anthropic의 Interpretability 팀에서 AI 모델의 작동 원리를 역공학(Reverse-engineering)하여 시스템의 안전성을 확보할 연구원 및 엔지니어를 채용합니다. 신경망의 매개변수가 알고리즘으로 매핑되는 과정을 탐구하며, 실험 설계, 인프라 구축 및 결과 시각화를 통해 신뢰할 수 있는 AI를 구축하는 것이 목표입니다.
주요 업무
LLM 가중치에 학습된 알고리즘 역공학을 통한 모델 이해 방법론 개발, 토이 시나리오 및 대규모 모델 대상 실험 설계 및 실행, 모델 작동 방식 이해를 위한 새로운 해석 기능 및 회로 분석, 실험 실행 및 결과 시각화를 위한 인프라 구축, 연구 결과의 내부 및 대외 커뮤니케이션.
자격 요건
관련 분야 학사 학위 이상 또는 그에 준하는 경력, 과학적 연구 분야의 강력한 실적, 해석 가능성(Interpretability) 관련 작업 경험, Python 숙련도 필수, 연구와 엔지니어링을 병행하며 직접 코드를 작성하고 실험을 수행할 수 있는 능력, 협업 중심의 연구(Team Science) 선호, 모호하고 새로운 실험적 과학 분야에 대한 적응력 및 커뮤니케이션 능력.
기술 스택
PythonLLMTransformerNeural NetworksMechanistic InterpretabilityMachine Learning