
sierra
Software Engineer, Site Reliability (SRE)
AI 요약
Sierra는 AI 기반 고객 경험 플랫폼을 구축하는 회사로, Site Reliability Engineer를 채용합니다. 이 직무는 AI 인프라의 신뢰성, 관찰 가능성 및 확장성 기반을 구축하고, 모니터링, 알림, 로깅, 추적 시스템을 소유하며, AWS 클라우드 인프라를 Terraform으로 설계 및 구현합니다. LLM 배포의 신뢰성과 확장성을 개선하고 CI/CD 파이프라인 및 사고 관리 프로세스를 리드하며, SRE 문화를 정의하는 역할을 수행합니다. 5년 이상의 SRE/인프라 엔지니어링 경험, Terraform, AWS, 컨테이너 오케스트레이션, 클라우드 네트워킹, 관찰 가능성 시스템에 대한 깊은 이해가 필요합니다. LLM 인프라 경험이나 스타트업 경험이 있으면 우대합니다.
주요 업무
AI 인프라의 신뢰성, 관찰 가능성, 확장성 기반 구축, Sierra의 관찰 가능성 스택 소유(모니터링, 알림, 로깅, 추적), 신뢰할 수 있고 확장 가능한 시스템 설계, Terraform 및 DevOps 도구를 사용한 AWS 클라우드 인프라 설계 및 구현, LLM 배포의 신뢰성 및 확장성 개선, 배포 파이프라인, CI/CD 도구, 사고 관리 프로세스 개선, SRE 문화, 도구, 모범 사례 정의.
자격 요건
5년 이상의 Site Reliability 또는 Infrastructure 엔지니어링 경험, Terraform, AWS 서비스, 컨테이너 오케스트레이션, 클라우드 네트워킹(IAM, VPC 아키텍처 포함)에 대한 깊은 경험, 관찰 가능성 시스템(Prometheus, Grafana, Datadog 등)에 대한 강력한 배경, 엔터프라이즈 고객 경험 및 규정 준수/네트워킹 요구 사항 이해, 컴퓨터 과학 또는 관련 분야 학위 또는 동등한 전문 경험. 우대: LLM 인프라 경험, 초기 스타트업 SRE 문화/도구 정의 경험, 사고 관리 자동화/자체 복구 인프라 패턴 경험.
기술 스택
AWSTerraformPrometheusGrafanaDatadogIAMVPCCI/CDLLM