Jobs
zoom 로고

zoom

Staff DevOps Engineer

인프라·DevOps

AI 요약

Zoom의 실시간 커뮤니케이션 플랫폼 안정성과 확장성을 책임질 Staff DevOps/Site Reliability Engineer 채용입니다. 전 세계 분산 환경에서 SLO/SLI 관리, 장애 대응, 관측성 개선, 배포 안전성 확보, 용량 계획과 비용 최적화를 주도합니다. WebRTC·Kubernetes·Terraform·Prometheus 등 인프라/SRE 역량이 핵심입니다.

주요 업무

SLO/SLI 프레임워크 소유 및 실시간 서비스의 latency, availability, jitter, packet loss 개선. 주요 장애의 인시던트 대응 리드 및 글로벌 팀 조율. 블레임리스 포스트모템 운영과 후속 개선 조치 추적. chaos engineering 및 game day 수행. 대시보드, 알림, distributed tracing 등 observability 도구 구축·개선. 배포 패턴, 인프라 설계, 운영 준비성의 아키텍처 권한 역할 수행. 시스템 설계 제안 검토 및 확장성/복원력/운영 복잡성 피드백 제공. 용량 계획, 트래픽 모델링, 비용 최적화 추진. 미디어 서버, CDN, 클라우드 서비스, edge networking 등 인프라 도구/벤더 평가. CI/CD, 배포 안전성, progressive rollout 표준 수립. 여러 엔지니어링 팀의 SRE 파트너로서 운영 준비성 가이드 제공. 네트워크, 보안, 제품, 데이터 팀과 신뢰성 요구사항 정렬. 인프라 제약과 트레이드오프를 제품/엔지니어링 리더에게 전달. IaC, GitOps, 자동화 테스트, 배포 자동화 등 DevOps 베스트 프랙티스 확산. 주니어/시니어 엔지니어에게 SRE 원칙과 운영 규율 코칭. 글로벌 팀 간 기술 리에종 역할 수행 및 문서/runbook/ADR 정비.

자격 요건

필수: DevOps, SRE 또는 인프라 엔지니어링 경력 10년 이상, 그중 최소 3년 이상 Staff/Principal 수준의 범위 경험. 대규모 분산·지연 민감 시스템의 신뢰성 오너십 경험. 실시간/미디어 중심 플랫폼(video conferencing, live streaming, gaming, trading systems 등) 지원 경험. 직접 권한 없이도 교차 기능 기술 이니셔티브를 리드한 경험. WebRTC, RTP/RTCP, TURN/STUN, SDP, SFU/MCU 토폴로지에 대한 개념적·아키텍처 이해. AWS, GCP 또는 Azure 및 Kubernetes, Helm, ArgoCD 경험. Terraform, Pulumi 등 IaC 도구 경험. Prometheus, Grafana, Datadog, Jaeger, OpenTelemetry 등 관측성 스택 경험. BGP, anycast routing, DNS, load balancing, CDN 아키텍처 이해. GitHub Actions, Jenkins, Spinnaker 등 CI/CD 도구 활용 경험. canary release, feature flags, blue/green 배포 전략 경험. Python, Bash 또는 Go로 자동화/툴링/장애 대응 가능. 우대/기타: 영어 및 중국어(또는 만다린)로 아키텍처 리뷰, 회고, 협업 가능. 글로벌 타임존 협업 가능. 주말 근무 가능성 수용. 이민 스폰서십 제공 없음.

기술 스택

WebRTCRTPRTCPTURNSTUNSDPSFUMCUAWSGCPAzureKubernetesHelmArgoCDTerraformPulumiPrometheusGrafanaDatadogJaegerOpenTelemetryBGPanycast routingDNSload balancingCDNGitHub ActionsJenkinsSpinnakercanary releasesfeature flagsblue/green strategiesPythonBashGoGitOpsinfrastructure-as-code
AI 점수 0none

zoom의 다른 공고

알림

알림이 없습니다