Jobs
openai 로고

openai

Software Engineer, Fleet Hardware Health

개발인프라·DevOps하드웨어·임베디드

AI 요약

OpenAI의 Fleet Hardware 팀에서 대규모 컴퓨팅 인프라의 안정성과 효율성을 책임질 소프트웨어 엔지니어를 채용합니다. 이 역할은 AI 연구와 제품 개발의 기반이 되는 서버 플릿의 자동화 관리 시스템을 구축하고, 하드웨어 장애를 최소화하여 시스템 가동 시간을 극대화하는 데 집중합니다. Python 또는 Go를 활용한 자동화 도구 개발과 Linux 기반의 시스템 엔지니어링 역량이 핵심입니다.

주요 업무

서버 플릿 프로비저닝 및 관리를 위한 자동화 시스템 구축 및 유지보수, 서버 상태/성능/라이프사이클 모니터링 도구 개발, 클러스터/네트워킹/인프라 팀과 협업, 외부 운영 파트너와 품질 관리 협력, 성능 병목 현상 식별 및 수정, 수동 작업 감소를 위한 지속적인 자동화 개선

자격 요건

대규모 서버 환경 관리 경험, Python/Go 또는 유사 언어 능숙, 강력한 Linux/네트워킹/서버 하드웨어 지식, SQL/PromQL/Pandas 등을 활용한 데이터 분석 능력 (우대사항: PCIe/Infiniband/전력 관리/커널 튜닝 등 하드웨어 저수준 디테일 경험, IPMI/Redfish 등 하드웨어 관리 프로토콜 지식, HPC 또는 분산 시스템 경험, Prometheus/Grafana 등 모니터링 도구 숙련도)

기술 스택

PythonGoLinuxSQLPromQLPandasPCIeInfinibandIPMIRedfishPrometheusGrafana

openai의 다른 공고

알림

알림이 없습니다