
openai
Software Engineer, Platform Systems
개발AI·머신러닝인프라·DevOps
AI 요약
OpenAI의 Platform Systems 팀에서 대규모 AI 모델 학습을 위한 분산 시스템 인프라를 구축할 소프트웨어 엔지니어를 채용합니다. 이 직무는 세계 최대 규모의 슈퍼컴퓨터에서 AI 모델이 효율적이고 안정적으로 학습될 수 있도록 장애 감지, 관측성(Observability) 도구 개발 및 성능 최적화를 담당합니다. 고성능 컴퓨팅(HPC) 및 저수준 시스템 엔지니어링 역량이 핵심입니다.
주요 업무
대규모 AI 학습 작업을 위한 분산 장애 감지, 트레이싱 및 프로파일링 시스템 설계 및 구축; 느리거나 결함이 있는 노드를 식별하고 시스템 동작에 대한 가시성을 제공하는 도구 개발; OpenAI 학습 플랫폼의 관측성, 신뢰성 및 성능 개선; 복잡한 고처리량 분산 시스템의 이슈 디버깅 및 해결; 시스템, 인프라 및 연구 팀과 협력하여 플랫폼 기능 진화.
자격 요건
분산 시스템의 성능, 안정성 및 관측성에 대한 깊은 관심; 대규모 시스템의 이슈 해결 및 운영 워크플로우 자동화 경험; 시스템 세부 사항이 중요한 저수준(Low-level) 소프트웨어 작성 경험; 하드웨어, 운영체제(OS), 네트워킹, 동시성 및 분산 시스템에 대한 이해; 고성능 컴퓨팅(HPC) 또는 저수준 시스템 엔지니어링 배경.
기술 스택
Distributed SystemsObservabilityTracingProfilingHPC (High-Performance Computing)Low-level Systems EngineeringNetworkingOperating SystemsConcurrencyFault Tolerance
openai의 다른 공고
Workforce Program Manager, Global Affairs
경영지원Agent Post-Training, API & Power Users
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Computer Use Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Personality
AI·머신러닝, 연구·R&DAgent Post-Training, Connectors Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Frontier Evals and Environments Research
연구·R&D, AI·머신러닝, 개발Agent Post-Training, Artifacts Research
AI·머신러닝, 연구·R&DB2B Marketing Lead, Korea
마케팅