Jobs
openai 로고

openai

Software Engineer, Frontier Clusters Infrastructure

인프라·DevOps개발하드웨어·임베디드

AI 요약

OpenAI의 Frontier Systems 팀에서 최첨단 AI 모델 학습을 위한 세계 최대 규모의 슈퍼컴퓨터 인프라를 구축하고 운영할 엔지니어를 채용합니다. 대규모 쿠버네티스 운영, 베어메탈 자동화, GPU 하드웨어 최적화를 통해 AI 연구를 뒷받침하는 핵심 시스템을 설계합니다.

주요 업무

대규모 쿠버네티스 클러스터 구축, 확장 및 수명 주기 관리 자동화. 여러 클러스터를 통합하여 학습 워크로드에 원활한 인터페이스를 제공하는 소프트웨어 추상화 구축. 베어메탈 노드 브링업(Bring-up) 및 펌웨어 업그레이드 프로세스 소유 및 자동화. 클러스터 재시작 시간 단축 및 업그레이드 주기 가속화 등 운영 지표 개선. 서버, 스위치, 데이터 센터 인프라 전반의 신뢰성을 위한 네트워킹 및 하드웨어 상태 시스템 통합. 극한의 부하 상황에서 클러스터 안정을 위한 모니터링 및 관측성(Observability) 시스템 개발.

자격 요건

대규모 또는 고가용성 환경에서의 인프라, 시스템 또는 분산 시스템 엔지니어링 경험. 쿠버네티스(Kubernetes) 내부 구조, 클러스터 확장 패턴 및 컨테이너화된 워크로드에 대한 강력한 지식. 클라우드 인프라 개념(컴퓨팅, 네트워킹, 스토리지, 보안) 및 운영 자동화 숙련도. Python, Go 등 프로그래밍/스크립팅 능력 및 Terraform, CloudFormation 등 IaC 도구 활용 능력. 베어메탈 리눅스 환경 및 대규모 네트워킹에 대한 이해. (우대사항) GPU 워크로드, 펌웨어 관리 또는 고성능 컴퓨팅(HPC) 배경 지식.

기술 스택

KubernetesPythonGoTerraformCloudFormationLinuxGPUBare-metalDocker
AI 점수 95core

openai의 다른 공고

알림

알림이 없습니다