Jobs
xai 로고

xai

AI/HPC Network Development Engineer - Networking

인프라·DevOpsAI·머신러닝

AI 요약

xAI에서 세계 최대 규모의 GPU 클러스터 성능을 최적화할 네트워크 엔지니어를 채용합니다. RoCEv2 및 이더넷 기반 AI/HPC 환경에서의 깊은 경험을 바탕으로, 초거대 AI 모델의 학습 및 추론을 위한 하이퍼스케일 네트워크 인프라를 설계하고 운영하는 역할을 수행합니다.

주요 업무

RoCEv2 기반 하이퍼스케일 네트워크 최적화 및 가용성 확보, NCCL 심층 분석 및 설정 조정을 통한 성능 극대화, 성능 메트릭 대시보드 구축, 차세대 백엔드/프론트엔드 네트워크 설계, GPU 인프라 확장 지원 및 자동화 프레임워크 구축, 데이터 센터 구축을 위한 출장 및 온콜 로테이션 참여

자격 요건

대규모 네트워크 설계 및 운영 경력 10년 이상 (이 중 이더넷 AI/HPC 분야 5년 이상 필수), RoCEv2 및 이더넷 혼잡 제어(Congestion Control)에 대한 깊은 이해, AI 학습 및 추론 워크로드의 네트워크 동작 방식 이해, NCCL 사용 및 디버깅 능력, 성능 최적화를 위한 메트릭 포트폴리오 구축 경험, Python을 활용한 업무 자동화 및 대규모 데이터 분석 능력, Infiniband 경험자 우대

기술 스택

RoCEv2EthernetInfinibandNCCLPythonGPUAI TrainingAI Inference
AI 점수 95core

xai의 다른 공고

알림

알림이 없습니다