Jobs
openai 로고

openai

Software Engineer, Platform Systems

개발인프라·DevOpsAI·머신러닝연구·R&D

AI 요약

OpenAI의 Platform Systems 팀에서 대규모 AI 모델 학습을 위한 분산 시스템 인프라를 구축할 소프트웨어 엔지니어를 채용합니다. 세계 최대 규모의 슈퍼컴퓨터 환경에서 모델 학습의 효율성과 안정성을 보장하기 위한 장애 감지, 관측성 시스템 및 성능 최적화 도구 개발이 핵심입니다.

주요 업무

- 대규모 AI 학습 작업을 위한 분산 장애 감지, 트레이싱 및 프로파일링 시스템 설계 및 구축 - 느리거나 결함이 있는 노드를 식별하고 시스템 동작에 대한 가시성을 제공하는 도구 개발 - OpenAI 학습 플랫폼 전반의 관측성, 신뢰성 및 성능 개선 - 복잡한 고처리량 분산 시스템의 문제 디버깅 및 해결 - 시스템, 인프라 및 연구 팀과 협력하여 플랫폼 기능 고도화 - 새로운 학습 패러다임 및 워크로드를 지원하기 위한 시스템 확장 및 적응

자격 요건

- 분산 시스템의 성능, 안정성 및 관측성에 대한 깊은 관심 - 대규모 시스템의 문제 해결 및 운영 워크플로우 자동화 경험 - 시스템 세부 사항이 중요한 저수준(low-level) 소프트웨어 작성 경험 - 하드웨어, 운영체제, 네트워킹, 동시성 및 분산 시스템에 대한 이해 - 고성능 컴퓨팅(HPC) 또는 저수준 시스템 엔지니어링 배경 우대 - 프론티어 AI 연구를 뒷받침하는 핵심 인프라 구축에 대한 열정

기술 스택

Distributed SystemsObservabilityTracingProfilingLow-level SoftwareHigh-performance Computing (HPC)NetworkingConcurrencyOperating Systems
AI 점수 95core

openai의 다른 공고

알림

알림이 없습니다