Jobs
openai 로고

openai

Software Engineer, GPU Infrastructure - HPC

개발인프라·DevOps하드웨어·임베디드

AI 요약

OpenAI의 Fleet HPC 팀에서 대규모 컴퓨팅 인프라의 신뢰성과 가동률을 책임질 소프트웨어 엔지니어를 채용합니다. 이 역할은 GPU, 데이터 센터, 네트워크 등 초거대 시스템의 하드웨어 장애를 최소화하고 자동화 솔루션을 구축하여 ChatGPT와 같은 AI 모델의 안정적인 학습 및 서비스 운영을 지원하는 핵심적인 업무를 수행합니다.

주요 업무

서버 플릿 프로비저닝 및 관리 자동화 시스템 구축 및 유지보수, 서버 상태, 성능 및 라이프사이클 이벤트 모니터링 도구 개발, 클러스터, 네트워킹 및 인프라 팀과의 협업, 성능 병목 현상 및 비효율성 식별 및 수정, 수동 작업 감소를 위한 지속적인 자동화 개선.

자격 요건

대규모 서버 환경 관리 경험, Python, Go 또는 유사 언어 숙련도, 강력한 Linux, 네트워킹 및 서버 하드웨어 지식, SQL, PromQL, Pandas 등을 활용한 데이터 분석 능력. (우대사항) PCIe, Infiniband, 커널 성능 튜닝 등 저수준 하드웨어 세부 사항 및 Linux 도구 경험, IPMI, Redfish 등 하드웨어 관리 프로토콜 지식, HPC 또는 분산 시스템 경험, Prometheus, Grafana 등 모니터링 도구 익숙함.

기술 스택

PythonGoLinuxSQLPromQLPandasPCIeInfinibandIPMIRedfishPrometheusGrafana
AI 점수 95core

openai의 다른 공고

알림

알림이 없습니다