
openai
Software Engineer, Hardware Health
개발인프라·DevOps하드웨어·임베디드AI·머신러닝
AI 요약
OpenAI의 Hardware Health and Observability 팀에서 글로벌 컴퓨팅 플릿의 상태 관리 및 관측 시스템을 구축할 엔지니어를 채용합니다. GPU, CPU, 네트워크 등 하드웨어 이슈를 감지하고 자동 복구하는 인프라를 설계하며, 대규모 AI 모델 학습 및 추론 워크로드의 가동 시간을 극대화하는 역할을 수행합니다. 7년 이상의 경력과 Python, 분산 시스템에 대한 깊은 이해가 요구됩니다.
주요 업무
GPU, CPU, 네트워크 및 플랫폼 인프라 전반의 상태 신호 정의 및 유지 관리, 대규모 장애 감지·복구·검증을 위한 상태 체크 시스템 구축 및 고도화, 하드웨어 장애 및 시스템 레벨 이슈 조사, 노드 생애주기 워크플로우(드레인, 격리, 수리, RMA 등) 관리, 수동 개입을 최소화하는 글로벌 클러스터 관리 자동화 도구 구축, 워크로드 및 신뢰성 팀과 협업하여 상태 신호를 학습 및 추론 시스템에 통합.
자격 요건
7년 이상의 소프트웨어 또는 인프라 엔지니어링 경력, Python 및 쉘 스크립팅 숙련도, 대규모 분산 시스템 또는 인프라 플랫폼 구축 경험, SQL/PromQL 등을 활용한 운영 데이터 분석 능력, 시스템 디버깅 및 운영에 대한 강한 본능과 오너십. (우대사항) PCIe, InfiniBand, RoCE, 커널 성능 튜닝 등 저수준 하드웨어 및 리눅스 툴링 경험, 대규모 GPU/가속기 클러스터 운영 및 디버깅 경험, 네트워크 운영 및 관측 기술 전문성, 자동 복구 시스템 또는 플릿 생애주기 관리 경험.
기술 스택
PythonShell scriptingSQLPromQLLinuxPCIeInfiniBandRoCEKernel performance tuning
openai의 다른 공고
Workforce Program Manager, Global Affairs
경영지원Agent Post-Training, API & Power Users
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Computer Use Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Personality
AI·머신러닝, 연구·R&DAgent Post-Training, Context Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Frontier Evals and Environments Research
연구·R&D, AI·머신러닝, 개발Agent Post-Training, Connectors Research
AI·머신러닝, 연구·R&D, 개발B2B Marketing Lead, Korea
마케팅