openai

Software Engineer, Hardware Health

개발인프라·DevOps하드웨어·임베디드AI·머신러닝

AI 요약

OpenAI의 Hardware Health and Observability 팀에서 글로벌 컴퓨팅 플릿의 상태 관리 및 관측 시스템을 구축할 엔지니어를 채용합니다. GPU, CPU, 네트워크 등 하드웨어 이슈를 감지하고 자동 복구하는 인프라를 설계하며, 대규모 AI 모델 학습 및 추론 워크로드의 가동 시간을 극대화하는 역할을 수행합니다. 7년 이상의 경력과 Python, 분산 시스템에 대한 깊은 이해가 요구됩니다.

주요 업무

GPU, CPU, 네트워크 및 플랫폼 인프라 전반의 상태 신호 정의 및 유지 관리, 대규모 장애 감지·복구·검증을 위한 상태 체크 시스템 구축 및 고도화, 하드웨어 장애 및 시스템 레벨 이슈 조사, 노드 생애주기 워크플로우(드레인, 격리, 수리, RMA 등) 관리, 수동 개입을 최소화하는 글로벌 클러스터 관리 자동화 도구 구축, 워크로드 및 신뢰성 팀과 협업하여 상태 신호를 학습 및 추론 시스템에 통합.

자격 요건

7년 이상의 소프트웨어 또는 인프라 엔지니어링 경력, Python 및 쉘 스크립팅 숙련도, 대규모 분산 시스템 또는 인프라 플랫폼 구축 경험, SQL/PromQL 등을 활용한 운영 데이터 분석 능력, 시스템 디버깅 및 운영에 대한 강한 본능과 오너십. (우대사항) PCIe, InfiniBand, RoCE, 커널 성능 튜닝 등 저수준 하드웨어 및 리눅스 툴링 경험, 대규모 GPU/가속기 클러스터 운영 및 디버깅 경험, 네트워크 운영 및 관측 기술 전문성, 자동 복구 시스템 또는 플릿 생애주기 관리 경험.

기술 스택

PythonShell scriptingSQLPromQLLinuxPCIeInfiniBandRoCEKernel performance tuning

AI 점수 85core

지원하기

Software Engineer, Hardware Health

AI 요약

주요 업무

자격 요건

기술 스택

openai의 다른 공고

알림