
mistralai
Site Reliability Engineer - Paris/London
인프라·DevOpsAI·머신러닝개발
AI 요약
Mistral AI에서 자사 AI 플랫폼 및 모델 학습 인프라의 신뢰성과 확장성을 책임질 7년 이상의 경력직 Site Reliability Engineer(SRE)를 채용합니다. 운영과 개발 업무를 50:50 비율로 수행하며, 특히 대규모 ML 워크로드와 HPC 클러스터 환경 최적화에 집중합니다.
주요 업무
웹 서비스 및 ML 워크로드 지원을 위한 확장 가능하고 결함 허용적인 인프라 설계 및 구축, 모델 학습 및 추론 환경의 고가용성 유지, HPC 클러스터 간 작업 환경 복제 지원, 시스템 모니터링 및 인시던트 대응(온콜 포함), CI/CD 및 오케스트레이션 도구 유지보수, Kubernetes 및 Terraform을 이용한 인프라 자동화 주도, AI/ML 연구원과 협업하여 모델 학습 솔루션 개발, 클라우드 불가지론적(Cloud-agnostic) 플랫폼 구축, 보안 및 컴플라이언스 준수 확인.
자격 요건
컴퓨터공학 또는 관련 분야 석사 학위 소지자, 7년 이상의 DevOps/SRE 경력, 클라우드 컴퓨팅 및 고가용성 분산 시스템에 대한 강력한 경험, CI/CD, 컨테이너화 및 오케스트레이션 도구(Docker, Kubernetes 등) 숙련, 모니터링 및 관측성 도구(Prometheus, Grafana, ELK Stack, Datadog 등) 활용 능력, IaC 도구(Terraform, CloudFormation) 경험, 스크립팅 언어(Python, Go, Bash) 및 소프트웨어 개발 베스트 프랙티스 숙련, 네트워킹 및 보안 개념에 대한 깊은 이해. (우대사항) AI/ML 환경 경험, HPC 시스템 및 Slurm 경험, 현대적 AI 지향 솔루션(Fluidstack, Coreweave 등) 사용 경험.
기술 스택
KubernetesFluxTerraformDockerPrometheusGrafanaELK StackDatadogCloudFormationPythonGoBashSlurmFluidstackCoreweaveVast
mistralai의 다른 공고
AI Deployment Strategist
영업, 고객지원, 개발Senior/Staff Applied Scientist/Research Engineer
AI·머신러닝, 연구·R&D, 개발Applied Scientist / Research Engineer
AI·머신러닝, 연구·R&D, 개발Applied AI, Machine Learning Engineer
AI·머신러닝, 영업Senior/Staff Applied AI, Machine Learning Engineer
AI·머신러닝, 영업Applied AI Engineer, Fullstack
개발, AI·머신러닝, 영업Senior/Staff Applied AI Engineer, Fullstack
개발, AI·머신러닝, 영업Software Engineer, Backend (Warsaw)
개발