
anthropic
Research Engineer, Pretraining Scaling
개발AI·머신러닝인프라·DevOps연구·R&D
AI 요약
Anthropic의 ML 성능 및 스케일링 팀에서 프론티어 모델의 안정적이고 효율적인 대규모 학습을 담당할 Research Engineer를 채용합니다. 연구와 엔지니어링의 경계에서 프로덕션 사전 학습 파이프라인 최적화, 하드웨어 디버깅, 실험 설계 등을 수행하며, LLM 학습 경험과 분산 시스템에 대한 깊은 이해가 필수적입니다.
주요 업무
프로덕션 사전 학습 파이프라인(모델 운영, 성능 최적화, 관측성, 신뢰성) 소유 및 관리. 하드웨어 오류부터 학습 다이내믹스까지 풀스택 디버깅. 학습 효율성 개선 및 업타임 증대를 위한 실험 설계 및 실행. 모델 출시 중 온콜 인시던트 대응. 로깅, 모니터링 대시보드 및 평가 인프라 구축. 학습 코드베이스에 새로운 아키텍처 및 기능 추가.
자격 요건
대규모 언어 모델(LLM) 학습 경험 또는 JAX, TPU, PyTorch, 대규모 분산 시스템에 대한 깊은 전문성 필수. 연구와 엔지니어링 업무를 약 50:50 비율로 수행하는 것을 선호하는 분. 복잡하고 모호한 풀스택 문제를 해결하는 능력 및 원활한 커뮤니케이션 역량. (우대사항) 오픈소스 LLM 프레임워크(open_lm, llm-foundry 등) 기여 경험, 모델 학습/스케일링 법칙 관련 연구 논문 발표 실적, 시스템 엔지니어링 또는 퀀트 배경.
기술 스택
JAXTPUPyTorchDistributed Systemsopen_lmllm-foundrymesh-transformer-jax