
uber
Senior Reliability Engineer - AV Labs
인프라·DevOps하드웨어·임베디드
AI 요약
Uber의 차량 내 센서 데이터 수집 시스템 신뢰성을 책임지는 시니어 Reliability Engineer 포지션입니다. 대규모 분산 차량 플릿에서 관측성, 알림, 자동화를 설계해 센서 가동률과 데이터 수율을 극대화하며, 장애 탐지·분류·완화 체계를 구축합니다. Linux, Go/Python/C++, Docker, 네트워킹, SLI/SLO 경험이 중요합니다.
주요 업무
분산 차량 노드의 실시간 health telemetry를 수집·분석하는 observability 플랫폼 설계 및 확장. 하드웨어 다양성, 간헐적 연결, 빠른 플릿 확장에도 성능을 유지하는 시스템 개발. 센서 uptime과 data yield에 영향을 주는 transient/systemic 이슈를 구분하는 alerting 전략 수립. silent failure(센서 열화, compute saturation, recording pipeline stall 등) 탐지 로직 설계. 자동 탐지·triage·완화 메커니즘 구축으로 수동 개입 최소화. Operations 및 Engineering과 협업해 안전한 자동 대응 체계 마련. TTD/TTM 개선을 위한 기술 인터페이스 개발. reliability 중심 설계 리뷰 주도 및 운영 문제를 기술 요구사항/로드맵으로 전환. fleet telemetry의 패턴을 분석해 시스템 회귀와 하드웨어 열화를 선제적으로 탐지.
자격 요건
필수: 5년 이상 소프트웨어 엔지니어링, 사이트 신뢰성(SRE), 시스템 엔지니어링 관련 경력. Go, Python, C++ 중 하나 이상의 코딩 역량. Linux internals 및 shell scripting 경험. Docker, networking stack 디버깅 역량. 대규모 프로덕션 환경에서 reliability/infrastructure/platform 시스템 운영 경험. observability 시스템(metrics, logging, alerting, dashboards) 설계·운영 경험. SLIs/SLOs 정의 및 구현 경험. TCP/IP, gRPC, MQTT 등 네트워킹 프로토콜 이해. 여러 팀과의 기술 프로젝트/아키텍처 리뷰를 주도한 경험. 우대: Prometheus, Grafana, ELK 사용 경험. 센서 데이터 프로토콜(Camera, LiDAR, Radar) 또는 hardware-to-cloud ingestion pipeline 경험. Grey Failure 탐지·관리 경험. 대규모 하드웨어 배포 Fleet Health 운영 경험 및 자동화로 수동 개입을 대체한 경험.
기술 스택
PrometheusGrafanaELKGoPythonC++Linuxshell scriptingDockerTCP/IPgRPCMQTTSLIsSLOs
uber의 다른 공고
Staff Software Engineer – AV Labs
개발, AI·머신러닝, 연구·R&DStaff Frontend Engineer, Core Services Eng
개발Senior ML Engineer, Computer Vision - Applied AI
AI·머신러닝, 연구·R&DSoftware Engineer I
개발, 인프라·DevOpsSoftware Engineer II
개발Staff Program Manager, Tech
경영지원Program Manager
제품·기획·디자인, 고객지원, 경영지원Staff Machine Learning Engineer, Core Services Eng (GenAI)
AI·머신러닝, 연구·R&D