Jobs
openai 로고

openai

Hardware Operations Engineer

현장운영

AI 요약

OpenAI의 Datacenter Hardware Technician Lead 채용으로, 대규모 AI 인프라 캠퍼스에서 서버·GPU·스토리지·랙 통합 하드웨어의 신뢰성, 가용성, 수명주기 관리를 총괄합니다. 장애 triage, RCA, 예방조치, 유지보수 표준화, 예비부품/재고 계획, 벤더·운영팀 협업이 핵심이며, 데이터센터 현장 상주 5일 근무가 필요합니다.

주요 업무

대규모 하드웨어 장애의 기술 triage 및 해결, Fleet Health Engineering과의 협업을 통한 반복 장애 조사 및 신뢰성 개선, critical hardware incident에 대한 RCA 주도 및 corrective/preventive action 계획 수립, CSP 운영팀·OEM 벤더와의 수리/교체/업그레이드/라이프사이클 활동 조율, 유지보수 절차·runbook·troubleshooting standard 수립 및 개선, 하드웨어 failure trend와 operational metric 분석, 신규 하드웨어 도입·검증·production readiness review 지원, 예비부품 전략 및 재고 계획 조정, Hardware Engineering/Manufacturing/Infrastructure에 field feedback 제공, 차세대 Stargate 캠퍼스에 적용 가능한 운영 표준 개발, 온사이트 기술자 및 파트너 팀 멘토링.

자격 요건

필수: 8년 이상 대규모 데이터센터 하드웨어 인프라 지원 경험, senior technician/sustaining engineering/hardware operations leadership 경험, 서버 플랫폼·GPU 시스템·스토리지 인프라·랙 통합·데이터센터 하드웨어 아키텍처에 대한 깊은 이해, 복잡한 하드웨어 장애 진단 및 생산환경 복구 경험, root cause analysis 수행 및 장기 corrective action 추진 경험, 하드웨어 신뢰성 엔지니어링 원칙 및 fleet-health 관리 이해, 엔지니어링/운영/제조/벤더와의 협업 역량, 독립적으로 고우선순위 생산환경을 운영할 수 있는 책임감, 뛰어난 문서 작성 및 커뮤니케이션 능력, 운영 프로세스·유지보수 표준·기술 문서 작성 경험, 데이터센터 현장 5일 상주 가능, 필요 시 출장 가능. 우대: 대규모 GPU 클러스터 또는 AI/ML 인프라 경험, fleet health 시스템·telemetry 플랫폼·hardware monitoring tools 경험, 데이터 식별·분석 및 dashboard development 능력, FRACAS/RCCA/5-Why/Fishbone/FMEA 경험, Linux system administration 및 hardware validation workflows, hyperscale datacenter 또는 HPC 운영 경험, server manufacturing/rack integration/NPI-to-sustaining 전환 경험, CompTIA Server+ 또는 OEM hardware certification, EHS 실무 경험.

기술 스택

LinuxFRACASRCCA5-WhyFishboneFMEA
AI 점수 20none

openai의 다른 공고

알림

알림이 없습니다