
xai
Member of Technical Staff
인프라·DevOps개발AI·머신러닝하드웨어·임베디드
AI 요약
xAI에서 멀티 데이터 센터 환경의 신뢰성을 관리하고 자동화할 'Member of Technical Staff(SRE/인프라)'를 채용합니다. Python과 Rust를 활용해 AI 인프라의 관측성을 높이고, 소프트웨어 엔지니어링 원칙을 물리적 데이터 센터 운영에 결합하여 AI 학습 파이프라인의 가동 시간을 극대화하는 역할을 수행합니다.
주요 업무
• Python 및 Rust를 활용한 신뢰성 워크플로우(모니터링, 알림, 인시던트 대응) 자동화 도구 설계 및 배포
• 멀티 데이터 센터 환경의 메트릭, 로그, 트레이싱 등 관측성 솔루션 구축 및 유지보수
• 네트워크, 하드웨어, 소프트웨어 전반의 복잡한 시스템 문제 해결 및 트러블슈팅
• Linux 커널 튜닝 및 컨테이너 환경 최적화를 통한 리소스 효율성 제고
• 물리적 데이터 센터 운영팀과 협업하여 전력/냉각 등 환경적 위험 요소에 대한 자동화된 대응 전략 수립
• 온콜 로테이션 참여 및 무비난 사후 분석(Blameless Postmortems)을 통한 시스템 개선
• 주니어 멘토링 및 자동화 문화 확산을 위한 문서화 작업
자격 요건
• 컴퓨터공학, 전기공학 등 관련 분야 학사 학위 이상 (또는 이에 준하는 경력)
• 5년 이상의 SRE, 인프라 엔지니어링, DevOps 또는 시스템 엔지니어링 경력
• Python 숙련 필수 (자동화 및 도구 제작용)
• Rust 사용 가능자 또는 학습 의지가 있는 자 (Go, C++ 등 시스템 언어 기본기 필수)
• Linux 시스템 관리, 성능 튜닝 및 커널 수준의 이해
• Docker 및 Kubernetes 등 컨테이너 오케스트레이션 실무 경험
• Prometheus, Grafana 등 관측성(Observability) 도구 구축 및 운영 경험
• TCP/IP, 라우팅, DNS 등 대규모 네트워크 기본 지식
• (우대) 7년 이상의 하이퍼스케일/클라우드/AI 인프라 경험
• (우대) GPU 클러스터 및 AI 워크로드 최적화 경험
• (우대) 데이터 센터 물리 인프라(전력, 냉각)와 소프트웨어 도구 통합 경험
기술 스택
PythonRustLinuxKubernetesDockerPrometheusGrafanaTCP/IPDNSGPU ClustersGoC++
xai의 다른 공고
Human Resources Coordinator
경영지원Material Handler
현장운영Senior Data Engineer - Consumer Subscriptions
데이터Fiber Foreman
현장운영Member of Technical Staff
AI·머신러닝, 연구·R&D, 인프라·DevOpsMember of Technical Staff
AI·머신러닝, 데이터, 인프라·DevOps, 연구·R&D, 개발Member of Technical Staff
개발, AI·머신러닝, 데이터, 인프라·DevOpsSupervisor, Fiber
현장운영