
openai
Tech Lead, Deployment & Operations — Custom Infrastructure
하드웨어·임베디드인프라·DevOps연구·R&D
AI 요약
OpenAI의 하드웨어 조직에서 커스텀 실리콘 및 시스템의 데이터 센터 배포와 운영을 총괄할 테크니컬 리드를 채용합니다. 하드웨어 브링업(Bring-up), 검증부터 대규모 운영 준비 및 신뢰성 확보까지의 전 과정을 리드하며, 차세대 AI 전용 하드웨어 인프라 구축의 핵심 역할을 수행합니다.
주요 업무
OpenAI 커스텀 실리콘 및 시스템의 데이터 센터 배포 및 운영 팀 리딩. 하드웨어 브링업, 검증, 운영 준비 및 플릿(Fleet) 지원 전 과정 관리. 실리콘, 시스템, 인프라, 네트워크, 공급망 등 유관 부서와 협업하여 대규모 배포 성공 보장. 배포 프로세스, 운영 플레이북, 기술적 준비 기준 및 신뢰성 관행 정의. 랙/시스템 통합, 데이터 센터 배포, 모니터링, 디버깅 및 문제 해결 주도. 아키텍처 리뷰 및 시스템 레벨 의사결정 참여. 운영 효율화를 위한 도구, 관측성, 자동화 계획 수립 및 실행. 미래 ML 시스템 아키텍처 및 설계의 기술적 드라이버 역할 수행.
자격 요건
8년 이상의 하드웨어 시스템, 인프라, 데이터 센터 배포, 생산 운영, 시스템 엔지니어링 또는 실리콘 브링업 관련 엔지니어링 경험. 하드웨어 배포, 데이터 센터 운영, 랙 스케일 시스템, 실리콘 브링업, 시스템 검증, 플릿(Fleet) 운영, 신뢰성 공학, 인프라 자동화 중 하나 이상의 분야에서 깊은 기술적 전문성 보유. 복잡한 하드웨어 시스템을 개발/검증 단계에서 생산 환경으로 전환한 경험. 실리콘, 시스템, 소프트웨어, 네트워크 팀과의 협업 능력. 배포 계획 수립, 운영 준비, 장애 대응 및 루트 원인 분석(RCA) 경험. 운영 품질 향상을 위한 도구, 자동화, 관측성(Observability) 구축 경험. 시니어 기술 인재 채용 및 리딩 능력. 빠른 속도의 환경에서 유연한 문제 해결 능력.
기술 스택
Silicon Bring-upHardware SystemsData Center OperationsInfrastructure AutomationFleet OperationsReliability EngineeringML SystemsObservabilitySystem Validation
openai의 다른 공고
Workforce Program Manager, Global Affairs
경영지원Agent Post-Training, API & Power Users
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Frontier Evals and Environments Research
연구·R&D, AI·머신러닝, 개발Agent Post-Training, Personality
AI·머신러닝, 연구·R&DAgent Post-Training, Computer Use Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Connectors Research
AI·머신러닝, 연구·R&D, 개발B2B Marketing Lead, Korea
마케팅Agent Post-Training, Artifacts Research
AI·머신러닝, 연구·R&D