Jobs
mistralai 로고

mistralai

Mistral Cloud - Site Reliability Engineer

인프라·DevOps개발AI·머신러닝

AI 요약

Mistral AI에서 클라우드 플랫폼과 고객용 애플리케이션의 신뢰성, 확장성 및 성능을 책임질 숙련된 사이트 신뢰성 엔지니어(SRE)를 채용합니다. 대규모 AI 모델 학습 인프라를 구축하고 운영하며, 고가용성 시스템을 위한 자동화 및 모니터링을 주도합니다.

주요 업무

• 확장 가능하고 결함 허용적인 고가용성 인프라 설계, 구축 및 유지보수 • 프로덕션 환경의 시스템 운영 및 장애 대응(온콜 포함) • 모니터링, 알림 및 사고 대응 시스템 구현 및 개선 • 고객용 API 및 대규모 모델 학습을 위한 CI/CD, 컨테이너화 워크플로우 관리 • 인프라 자동화, 배포 및 오케스트레이션의 지속적 개선 주도 • 보안 팀과 협력하여 인프라 보안 및 컴플라이언스 준수 • 오픈소스 프로젝트 기여 및 기술 문서화

자격 요건

• 컴퓨터 공학 또는 관련 분야 석사 학위 이상 • 5년 이상의 DevOps/SRE 역할 수행 경험 • 베어메탈 인프라 및 고가용성 분산 시스템에 대한 강력한 경험 • 모니터링, 로깅, 알림 및 관측성 도구(Prometheus, Grafana, ELK Stack, Datadog 등) 지식 • CI/CD, 컨테이너화 및 오케스트레이션 도구(Docker, Kubernetes 등) 실무 경험 • IaC 도구(Terraform, CloudFormation 등) 숙련도 • 스크립팅 언어(Python, Go, Bash 등) 및 소프트웨어 개발 베스트 프랙티스 이해 • (우대) AI/ML 환경 경험 및 고성능 컴퓨팅(HPC) 시스템/Slurm 경험 • (우대) 현대적 AI 지향 솔루션(Fluidstack, Coreweave 등) 활용 경험

기술 스택

DockerKubernetesPrometheusGrafanaELK StackDatadogTerraformCloudFormationPythonGoBashSlurmFluidstackCoreweaveVast
AI 점수 85core

mistralai의 다른 공고

알림

알림이 없습니다