Jobs
openai 로고

openai

Tech Lead, Deployment & Operations — Custom Infrastructure

하드웨어·임베디드인프라·DevOps연구·R&D

AI 요약

OpenAI의 하드웨어 조직에서 커스텀 실리콘 및 시스템의 데이터 센터 배포와 운영을 총괄할 테크니컬 리드를 채용합니다. 하드웨어 브링업(Bring-up), 검증부터 대규모 운영 준비 및 신뢰성 확보까지의 전 과정을 리드하며, 차세대 AI 전용 하드웨어 인프라 구축의 핵심 역할을 수행합니다.

주요 업무

OpenAI 커스텀 실리콘 및 시스템의 데이터 센터 배포 및 운영 팀 리딩. 하드웨어 브링업, 검증, 운영 준비 및 플릿(Fleet) 지원 전 과정 관리. 실리콘, 시스템, 인프라, 네트워크, 공급망 등 유관 부서와 협업하여 대규모 배포 성공 보장. 배포 프로세스, 운영 플레이북, 기술적 준비 기준 및 신뢰성 관행 정의. 랙/시스템 통합, 데이터 센터 배포, 모니터링, 디버깅 및 문제 해결 주도. 아키텍처 리뷰 및 시스템 레벨 의사결정 참여. 운영 효율화를 위한 도구, 관측성, 자동화 계획 수립 및 실행. 미래 ML 시스템 아키텍처 및 설계의 기술적 드라이버 역할 수행.

자격 요건

8년 이상의 하드웨어 시스템, 인프라, 데이터 센터 배포, 생산 운영, 시스템 엔지니어링 또는 실리콘 브링업 관련 엔지니어링 경험. 하드웨어 배포, 데이터 센터 운영, 랙 스케일 시스템, 실리콘 브링업, 시스템 검증, 플릿(Fleet) 운영, 신뢰성 공학, 인프라 자동화 중 하나 이상의 분야에서 깊은 기술적 전문성 보유. 복잡한 하드웨어 시스템을 개발/검증 단계에서 생산 환경으로 전환한 경험. 실리콘, 시스템, 소프트웨어, 네트워크 팀과의 협업 능력. 배포 계획 수립, 운영 준비, 장애 대응 및 루트 원인 분석(RCA) 경험. 운영 품질 향상을 위한 도구, 자동화, 관측성(Observability) 구축 경험. 시니어 기술 인재 채용 및 리딩 능력. 빠른 속도의 환경에서 유연한 문제 해결 능력.

기술 스택

Silicon Bring-upHardware SystemsData Center OperationsInfrastructure AutomationFleet OperationsReliability EngineeringML SystemsObservabilitySystem Validation
AI 점수 95core

openai의 다른 공고

알림

알림이 없습니다