openai

Site Reliability Engineer, Frontier Systems Infrastructure

인프라·DevOps개발하드웨어·임베디드

AI 요약

OpenAI의 Frontier Systems 팀에서 차세대 AI 모델 학습을 위한 세계 최대 규모의 슈퍼컴퓨터 인프라를 구축하고 운영할 엔지니어를 채용합니다. 대규모 Kubernetes 클러스터 확장, 베어메탈 자동화, 분산 시스템 엔지니어링을 통해 AI 연구의 근간이 되는 컴퓨팅 자원을 안정화하고 효율화하는 역할을 수행합니다.

주요 업무

대규모 Kubernetes 클러스터 구축 및 확장 자동화(프로비저닝, 부트스트래핑, 수명 주기 관리), 학습 워크로드를 위한 클러스터 통합 소프트웨어 추상화 계층 구축, 베어메탈 노드 프로비저닝 및 펌웨어 업그레이드 관리, 클러스터 재시작 시간 단축 및 업그레이드 주기 가속화 등 운영 지표 개선, 서버/스위치/인프라 전반의 신뢰성 확보를 위한 네트워킹 및 하드웨어 상태 시스템 통합, 시스템 안정성 유지를 위한 모니터링 및 관측 시스템 개발.

자격 요건

대규모 또는 고가용성 환경에서의 인프라, 시스템 또는 분산 시스템 엔지니어 경험, Kubernetes 내부 구조 및 클러스터 확장 패턴에 대한 깊은 지식, 클라우드 인프라 개념(컴퓨팅, 네트워킹, 스토리지, 보안) 및 자동화 숙련도, Python, Go 또는 이와 유사한 언어를 활용한 프로그래밍 및 스크립팅 능력, Terraform 또는 CloudFormation과 같은 Infrastructure-as-Code(IaC) 도구 사용 경험, (우대) GPU 워크로드, 펌웨어 관리 또는 고성능 컴퓨팅(HPC) 관련 배경 지식.

기술 스택

KubernetesPythonGoTerraformCloudFormationLinuxGPUBare-metalInfrastructure-as-Code

AI 점수 85core

지원하기

Site Reliability Engineer, Frontier Systems Infrastructure

AI 요약

주요 업무

자격 요건

기술 스택

openai의 다른 공고

알림