
scatterlab
Site Reliability Engineer (DevOps)
정규직(풀타임)대면근무인프라·DevOps데이터
AI 요약
스캐터랩의 AI B2C 서비스 '제타' 운영을 담당할 SRE/DevOps 엔지니어 채용. 대규모 트래픽(수십만 사용자, 실시간 100대 이상 GPU) 환경에서 멀티클라우드 기반 AI 모델 서빙 인프라를 구축·운영하고, 모니터링·장애 대응·성능 최적화 및 로그 기반 데이터 파이프라인을 설계·운영하여 서비스 안정성과 AI 모델 개선에 기여하는 역할입니다.
주요 업무
서비스 안정적 운영 및 모니터링 엔지니어링. 멀티클라우드 기반 확장 가능한 AI 서빙 인프라 구축. 시스템 장애 대응을 위한 모니터링 시스템 구축. Throughput/Latency 병목 최적화. 배포·모니터링 등 DevOps 유틸리티 및 자동화 도구 개발. 반복 업무 자동화로 생산성 향상. 로그 스트리밍·데이터 정제·대규모 배치 등 데이터 파이프라인 구축 및 운영.
자격 요건
SRE, DevOps 또는 Backend 엔지니어로서 3년 이상 경력. 대규모 트래픽을 다루는 클라우드 서비스 운영 경험. Kubernetes 및 Istio 운영 경험. OS 및 네트워크에 대한 탄탄한 기본 지식.
기술 스택
KubernetesIstio멀티클라우드GPU 기반 AI/LLM 서빙OS (리눅스 등)네트워크IaCRDBNoSQLIn-memory DB로그 스트리밍데이터 파이프라인대규모 배치 처리모니터링/알람 시스템비동기/논블로킹 웹 애플리케이션