
openai
Software Engineer, Platform Systems
개발인프라·DevOpsAI·머신러닝연구·R&D
AI 요약
OpenAI의 Platform Systems 팀에서 대규모 AI 모델 학습을 위한 분산 시스템 인프라를 구축할 소프트웨어 엔지니어를 채용합니다. 세계 최대 규모의 슈퍼컴퓨터 환경에서 모델 학습의 효율성과 안정성을 보장하기 위한 장애 감지, 관측성 시스템 및 성능 최적화 도구 개발이 핵심입니다.
주요 업무
- 대규모 AI 학습 작업을 위한 분산 장애 감지, 트레이싱 및 프로파일링 시스템 설계 및 구축
- 느리거나 결함이 있는 노드를 식별하고 시스템 동작에 대한 가시성을 제공하는 도구 개발
- OpenAI 학습 플랫폼 전반의 관측성, 신뢰성 및 성능 개선
- 복잡한 고처리량 분산 시스템의 문제 디버깅 및 해결
- 시스템, 인프라 및 연구 팀과 협력하여 플랫폼 기능 고도화
- 새로운 학습 패러다임 및 워크로드를 지원하기 위한 시스템 확장 및 적응
자격 요건
- 분산 시스템의 성능, 안정성 및 관측성에 대한 깊은 관심
- 대규모 시스템의 문제 해결 및 운영 워크플로우 자동화 경험
- 시스템 세부 사항이 중요한 저수준(low-level) 소프트웨어 작성 경험
- 하드웨어, 운영체제, 네트워킹, 동시성 및 분산 시스템에 대한 이해
- 고성능 컴퓨팅(HPC) 또는 저수준 시스템 엔지니어링 배경 우대
- 프론티어 AI 연구를 뒷받침하는 핵심 인프라 구축에 대한 열정
기술 스택
Distributed SystemsObservabilityTracingProfilingLow-level SoftwareHigh-performance Computing (HPC)NetworkingConcurrencyOperating Systems
openai의 다른 공고
Workforce Program Manager, Global Affairs
경영지원Agent Post-Training, API & Power Users
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Computer Use Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Personality
AI·머신러닝, 연구·R&DAgent Post-Training, Connectors Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Frontier Evals and Environments Research
연구·R&D, AI·머신러닝, 개발Agent Post-Training, Artifacts Research
AI·머신러닝, 연구·R&DB2B Marketing Lead, Korea
마케팅