Jobs
mistralai 로고

mistralai

Site Reliability Engineer - Paris/London

인프라·DevOpsAI·머신러닝개발

AI 요약

Mistral AI에서 자사 AI 플랫폼 및 모델 학습 인프라의 신뢰성과 확장성을 책임질 7년 이상의 경력직 Site Reliability Engineer(SRE)를 채용합니다. 운영과 개발 업무를 50:50 비율로 수행하며, 특히 대규모 ML 워크로드와 HPC 클러스터 환경 최적화에 집중합니다.

주요 업무

웹 서비스 및 ML 워크로드 지원을 위한 확장 가능하고 결함 허용적인 인프라 설계 및 구축, 모델 학습 및 추론 환경의 고가용성 유지, HPC 클러스터 간 작업 환경 복제 지원, 시스템 모니터링 및 인시던트 대응(온콜 포함), CI/CD 및 오케스트레이션 도구 유지보수, Kubernetes 및 Terraform을 이용한 인프라 자동화 주도, AI/ML 연구원과 협업하여 모델 학습 솔루션 개발, 클라우드 불가지론적(Cloud-agnostic) 플랫폼 구축, 보안 및 컴플라이언스 준수 확인.

자격 요건

컴퓨터공학 또는 관련 분야 석사 학위 소지자, 7년 이상의 DevOps/SRE 경력, 클라우드 컴퓨팅 및 고가용성 분산 시스템에 대한 강력한 경험, CI/CD, 컨테이너화 및 오케스트레이션 도구(Docker, Kubernetes 등) 숙련, 모니터링 및 관측성 도구(Prometheus, Grafana, ELK Stack, Datadog 등) 활용 능력, IaC 도구(Terraform, CloudFormation) 경험, 스크립팅 언어(Python, Go, Bash) 및 소프트웨어 개발 베스트 프랙티스 숙련, 네트워킹 및 보안 개념에 대한 깊은 이해. (우대사항) AI/ML 환경 경험, HPC 시스템 및 Slurm 경험, 현대적 AI 지향 솔루션(Fluidstack, Coreweave 등) 사용 경험.

기술 스택

KubernetesFluxTerraformDockerPrometheusGrafanaELK StackDatadogCloudFormationPythonGoBashSlurmFluidstackCoreweaveVast
AI 점수 90core

mistralai의 다른 공고

알림

알림이 없습니다