
openai
Software Engineer, Fleet Infrastructure
개발인프라·DevOpsAI·머신러닝
AI 요약
OpenAI에서 세계 최대 규모의 GPU 플릿(Fleet) 인프라를 설계하고 운영할 엔지니어를 채용합니다. 이 역할은 모델 학습 및 배포를 위한 쿠버네티스 클러스터 자동화, 스케줄링 시스템, 고성능 데이터 전달 시스템 구축을 통해 OpenAI의 AI 역량 강화를 뒷받침하는 핵심적인 인프라를 관리합니다.
주요 업무
작업 스케줄링·클러스터 관리·스냅샷 전달·CI/CD 시스템을 포함한 컴퓨팅 플릿 구성 요소 설계 및 운영, 연구원 및 제품 팀과 협력하여 워크로드 요구사항 파악, 하드웨어 및 비즈니스 팀과 협업하여 고가용성 및 고신뢰성 서비스 제공
자격 요건
하이퍼스케일 컴퓨팅 시스템 경험, 강력한 프로그래밍 기술, 퍼블릭 클라우드(특히 Azure) 활용 경험, Kubernetes 활용 경험, 실행 중심의 사고방식 및 사용자 요구사항에 대한 엄격한 집중력, (우대) AI/ML 워크로드에 대한 이해
기술 스택
KubernetesAzureGPUCI/CDCloud Computing
openai의 다른 공고
Workforce Program Manager, Global Affairs
경영지원Agent Post-Training, API & Power Users
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Context Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Computer Use Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Personality
AI·머신러닝, 연구·R&DAgent Post-Training, Connectors Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Frontier Evals and Environments Research
연구·R&D, AI·머신러닝, 개발Agent Post-Training, Artifacts Research
AI·머신러닝, 연구·R&D