
xai
Sr. Software Engineer (Data Center Automation)
개발인프라·DevOps
AI 요약
xAI의 멀티 데이터센터 환경에서 사이트 신뢰성(SRE)과 인프라 자동화를 담당할 시니어 소프트웨어 엔지니어를 채용합니다. Python/Rust 기반 자동화, 관측성(모니터링·로깅·트레이싱), Linux/Kubernetes 운영, 장애 대응 및 복구 체계 고도화가 핵심이며, 데이터센터 물리 인프라와 소프트웨어 신뢰성을 함께 다루는 역할입니다.
주요 업무
Python/Rust로 신뢰성 자동화 코드 및 서비스 설계·개발·배포, 모니터링/알림/인시던트 대응/프로비저닝 자동화, metrics/logging/tracing/dashboard 기반 관측성 구축, 멀티 데이터센터 장애 및 물리 인프라 이슈 진단·해결, fault tolerance·disaster recovery·capacity planning·리스크 완화 자동화, Linux 성능/보안/신뢰성 최적화, Kubernetes 등 컨테이너 오케스트레이션 운영, 네트워크/데이터센터 인터커넥트 문제 해결, 온콜 및 포스트모템 참여, 문서화 및 주니어 멘토링.
자격 요건
필수: 컴퓨터공학/전기공학 등 관련 전공 또는 동등 경력, SRE/인프라/DevOps/시스템 엔지니어링 3년 이상, Python 기반 프로덕션 개발 경험, Rust 또는 시스템 레벨 언어 경험, Linux 시스템 관리 및 성능 튜닝 경험, Docker/Kubernetes 등 컨테이너 및 오케스트레이션 경험, Prometheus/Grafana 등 관측성 도구 및 모니터링/로깅/트레이싱 경험, 분산 시스템 장애 트러블슈팅 경험, TCP/IP·라우팅·DNS 등 네트워킹 이해, 온콜/인시던트 대응/포스트모템 경험, 크로스펑셔널 협업 역량. 우대: hyperscale/cloud/AI·ML 인프라에서 5년 이상, 대규모 Kubernetes 운영, Rust 숙련도, 물리 데이터센터 인프라 연동 경험, 고급 관측성 스택 경험, 자동 복구/장애 예측/DR/용량 계획 구축 경험, GPU 클러스터·AI 워크로드 Linux 최적화 경험, bare-metal provisioning 및 멀티사이트 failover 경험, 멘토링 및 문서화 역량.
기술 스택
PythonRustLinuxDockerKubernetesPrometheusGrafanaELKTCP/IPDNSmetricsloggingtracingdashboards
xai의 다른 공고
Human Resources Coordinator
경영지원Fiber Foreman
현장운영Material Handler
현장운영Senior Data Engineer - Consumer Subscriptions
데이터Member of Technical Staff
AI·머신러닝, 연구·R&D, 인프라·DevOpsMember of Technical Staff
AI·머신러닝, 데이터, 인프라·DevOps, 연구·R&D, 개발Member of Technical Staff
개발, AI·머신러닝, 데이터, 인프라·DevOpsAssociate Data Center Operations Technician
인프라·DevOps, 현장운영