anthropic

Research Engineer, Pretraining Scaling (London)

개발AI·머신러닝연구·R&D인프라·DevOps

AI 요약

Anthropic의 ML 성능 및 스케일링 팀에서 프론티어 모델의 안정적이고 효율적인 대규모 학습을 담당할 Research Engineer를 채용합니다. 연구와 엔지니어링의 경계에서 모델 최적화, 하드웨어 디버깅, 실험 설계 등을 수행하며, 세계 최고 수준의 LLM 학습 인프라를 구축하고 운영하는 고영향력 직무입니다.

주요 업무

프로덕션 사전 학습 파이프라인(모델 운영, 성능 최적화, 가용성, 신뢰성) 관리 및 소유. 하드웨어 오류, 네트워킹, 학습 다이내믹스 등 풀스택 이슈 디버깅 및 해결. 학습 효율성 개선 및 모델 성능 향상을 위한 실험 설계 및 실행. 모델 출시 중 온콜 대응 및 팀 간 솔루션 조율. 프로덕션 로깅, 모니터링 대시보드 및 평가 인프라 구축/유지보수. 학습 코드베이스에 새로운 기능(Long context, 신규 아키텍처 등) 추가.

자격 요건

학사 학위 이상(또는 이에 준하는 경험). 대규모 언어 모델(LLM) 학습 실무 경험 또는 JAX, TPU, PyTorch, 대규모 분산 시스템에 대한 깊은 전문성 필수. 연구와 엔지니어링 업무 비중을 50:50으로 선호하며, 복잡하고 모호한 스택 전반의 문제를 해결할 수 있는 능력 필요. (우대사항) 오픈소스 LLM 프레임워크(open_lm, llm-foundry, mesh-transformer-jax 등) 기여 경험, 모델 학습/스케일링 법칙/ML 시스템 관련 연구 논문 발표 실적, 프로덕션 ML 시스템 및 관측 도구 활용 경험, 시스템 엔지니어 또는 퀀트 배경.

기술 스택

JAXTPUPyTorchDistributed Systemsopen_lmllm-foundrymesh-transformer-jax

AI 점수 100core

지원하기

Research Engineer, Pretraining Scaling (London)

AI 요약

주요 업무

자격 요건

기술 스택

anthropic의 다른 공고

알림