
openai
Training, Process Management Engineer
개발AI·머신러닝인프라·DevOps연구·R&D
AI 요약
OpenAI의 Training Runtime 팀에서 대규모 분산 학습 워크로드를 관리하는 프로세스 관리 엔지니어를 채용합니다. 수백만 대의 머신에서 실행되는 AI 모델 학습의 안정성과 성능을 최적화하는 분산 OS 및 런타임을 개발하며, 주로 Rust와 Python을 사용합니다.
주요 업무
• Python 및 Rust 스택 전반에 걸친 작업 수행
• 대규모 슈퍼컴퓨터에서 머신러닝 워크로드를 오케스트레이션하고 모니터링하는 소프트웨어 설계, 구축 및 유지 관리
• 프론티어 규모의 연산 오케스트레이션을 지원하기 위한 소프트웨어 스택 프로파일링 및 최적화
• 장기 실행 작업의 신뢰성, 관측 가능성 및 내결함성 개선
• 대규모 클러스터 전반의 복잡한 분산 시스템 문제 디버깅
• 연구원들을 지원하기 위해 변화하는 ML 시스템 요구사항에 대응
자격 요건
• 분산 시스템 개발 경험 (단순 운영이 아닌 개발 경험 필수)
• 대규모 시스템의 동작 및 장애 방식에 대한 깊은 이해
• 성능, 정확성 및 신뢰성에 대한 높은 기준
• Python 및 Rust 또는 기타 시스템 프로그래밍 언어(예: C++) 숙련도
• 탄탄한 Linux 지식 및 시스템 레벨 디버깅, 성능 분석, 메모리 프로파일링 능력
• 비동기 및 동시성 시스템 개발 경험 및 숙련도
• 높은 소유권 의식과 주도적인 엔지니어링 역량
기술 스택
RustPythonC++LinuxDistributed SystemsAsynchronous SystemsConcurrent Systems
openai의 다른 공고
Workforce Program Manager, Global Affairs
경영지원Agent Post-Training, Connectors Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Frontier Evals and Environments Research
연구·R&D, AI·머신러닝, 개발B2B Marketing Lead, Korea
마케팅Agent Post-Training, Personality
AI·머신러닝, 연구·R&DAgent Post-Training, Context Research
AI·머신러닝, 연구·R&D, 개발Agent Post-Training, Artifacts Research
AI·머신러닝, 연구·R&DAgent Post-Training, API & Power Users
AI·머신러닝, 연구·R&D, 개발