Jobs
mistralai 로고

mistralai

Site Reliability Engineer - NYC

인프라·DevOpsAI·머신러닝

AI 요약

Mistral AI에서 플랫폼의 신뢰성, 확장성 및 성능을 책임질 숙련된 Site Reliability Engineer(SRE)를 채용합니다. 주요 업무는 웹 서비스와 ML 워크로드를 지원하는 확장 가능한 인프라 설계 및 유지보수이며, AI/ML 연구원과 협업하여 모델 학습 실험을 위한 솔루션을 개발하는 것입니다.

주요 업무

웹 서비스 및 ML 워크로드를 위한 확장 가능하고 결함 허용적인 인프라 설계 및 구축, 모델 학습 및 추론 환경의 고가용성 유지, CI/CD, 컨테이너화, 오케스트레이션 및 모니터링 워크플로우 구현, AI/ML 연구원과 협업하여 재현 가능한 모델 학습 실험 솔루션 개발, 인프라 자동화 및 보안 베스트 프랙티스 적용, 오픈소스 프로젝트 및 기술 블로그 기여.

자격 요건

컴퓨터공학 또는 관련 분야 석사 학위 소지자, 7년 이상의 DevOps/SRE 경력, 클라우드 컴퓨팅 및 고가용성 분산 시스템에 대한 강력한 경험, 신뢰성 KPI(SLA, observability 등) 관리 경험, Docker 및 Kubernetes 등 컨테이너 오케스트레이션 도구 숙련, Prometheus, Grafana, ELK Stack, Datadog 등 모니터링 및 로깅 도구 경험, Terraform 또는 CloudFormation 등 IaC 도구 활용 능력, Python, Go, Bash 등 스크립팅 언어 능통, AI/ML 환경 및 HPC(Slurm) 시스템 경험 우대, Modern AI 솔루션(Fluidstack, Coreweave 등) 경험 우대.

기술 스택

KubernetesFluxTerraformDockerPrometheusGrafanaELK StackDatadogCloudFormationPythonGoBashSlurmFluidstackCoreweaveVast
AI 점수 88core

mistralai의 다른 공고

알림

알림이 없습니다