
speak
Infra Lead
정규직(풀타임)대면혼합근무인프라·DevOps
AI 요약
글로벌 언어 학습 서비스 Speak에서 인프라 안정성 및 확장성을 책임질 Lead SRE 엔지니어를 채용합니다. GCP와 Kubernetes 기반 인프라, Node.js/Postgres/Redis 스택을 운영·고도화하며, P0/P1 사고 대응, 관측성 개선, SLO 정의 및 인프라 자동화 도구 개발을 주도합니다. 7년 이상의 SRE/DevOps 경력과 리딩 경험을 요구합니다.
주요 업무
GCP, Kubernetes 및 Node.js/Postgres 기반 인프라의 신뢰성 책임. P0/P1 인시던트 대응 리드, 포스트모템 주도 및 장애 학습 프로세스 시행. 관측성·알림·온콜 프로세스 개선을 통해 사용자 체감 이전에 문제 포착. 핵심 시스템에 대한 SLO/SLA 정의 및 채택 주도. 제품 엔지니어들이 안전하게 배포하도록 배포 안전성 및 인프라 자동화 도구·프레임워크 구축. Product·Engineering·ML 팀과 협업해 신기능에 신뢰성 내재화. 안정성 로드맵 수립(단기/장기) 및 SRE 원칙(블레임리스 문화·운영 성숙도·지속적 개선) 전파 및 코칭.
자격 요건
7년 이상 SRE, DevOps 또는 인프라 관련 엔지니어링 경력(리드/멘토 경험 우대). GCP, Kubernetes, Terraform, Node.js, Python, PostgreSQL, Redis 및 Prometheus, Sentry 등의 관측성 도구에 대한 강한 실무 경험. 고트래픽 시스템에서 안정성 개선, 확장 및 인시던트 빈도/심각도 감소를 입증한 경험. P0/P1 인시던트 리드 및 근본 원인 분석 능력. CI/CD 파이프라인 및 배포 안정성 툴링 구축 경험. 시스템적 사고와 서비스 취약점 식별 및 강화 능력. 높은 책임감과 조직 내 인프라 생산성 향상 의지. (보너스: 클라우드 비용 최적화, 보안·카오스 엔지니어링·재해복구 경험, 내부 툴/자동화 기여)
기술 스택
GCPKubernetesTerraformNode.jsPythonPostgreSQLRedisPrometheusSentryCI/CDObservabilitySLO/SLA인프라 자동화배포 안전성 툴링