Jobs
xai 로고

xai

Member of Technical Staff

인프라·DevOps개발AI·머신러닝하드웨어·임베디드

AI 요약

xAI에서 멀티 데이터 센터 환경의 신뢰성을 관리하고 자동화할 'Member of Technical Staff(SRE/인프라)'를 채용합니다. Python과 Rust를 활용해 AI 인프라의 관측성을 높이고, 소프트웨어 엔지니어링 원칙을 물리적 데이터 센터 운영에 결합하여 AI 학습 파이프라인의 가동 시간을 극대화하는 역할을 수행합니다.

주요 업무

• Python 및 Rust를 활용한 신뢰성 워크플로우(모니터링, 알림, 인시던트 대응) 자동화 도구 설계 및 배포 • 멀티 데이터 센터 환경의 메트릭, 로그, 트레이싱 등 관측성 솔루션 구축 및 유지보수 • 네트워크, 하드웨어, 소프트웨어 전반의 복잡한 시스템 문제 해결 및 트러블슈팅 • Linux 커널 튜닝 및 컨테이너 환경 최적화를 통한 리소스 효율성 제고 • 물리적 데이터 센터 운영팀과 협업하여 전력/냉각 등 환경적 위험 요소에 대한 자동화된 대응 전략 수립 • 온콜 로테이션 참여 및 무비난 사후 분석(Blameless Postmortems)을 통한 시스템 개선 • 주니어 멘토링 및 자동화 문화 확산을 위한 문서화 작업

자격 요건

• 컴퓨터공학, 전기공학 등 관련 분야 학사 학위 이상 (또는 이에 준하는 경력) • 5년 이상의 SRE, 인프라 엔지니어링, DevOps 또는 시스템 엔지니어링 경력 • Python 숙련 필수 (자동화 및 도구 제작용) • Rust 사용 가능자 또는 학습 의지가 있는 자 (Go, C++ 등 시스템 언어 기본기 필수) • Linux 시스템 관리, 성능 튜닝 및 커널 수준의 이해 • Docker 및 Kubernetes 등 컨테이너 오케스트레이션 실무 경험 • Prometheus, Grafana 등 관측성(Observability) 도구 구축 및 운영 경험 • TCP/IP, 라우팅, DNS 등 대규모 네트워크 기본 지식 • (우대) 7년 이상의 하이퍼스케일/클라우드/AI 인프라 경험 • (우대) GPU 클러스터 및 AI 워크로드 최적화 경험 • (우대) 데이터 센터 물리 인프라(전력, 냉각)와 소프트웨어 도구 통합 경험

기술 스택

PythonRustLinuxKubernetesDockerPrometheusGrafanaTCP/IPDNSGPU ClustersGoC++
AI 점수 85core

xai의 다른 공고

알림

알림이 없습니다