Jobs
openai 로고

openai

Training, Process Management Engineer

개발AI·머신러닝인프라·DevOps연구·R&D

AI 요약

OpenAI의 Training Runtime 팀에서 대규모 분산 학습 워크로드를 관리하는 프로세스 관리 엔지니어를 채용합니다. 수백만 대의 머신에서 실행되는 AI 모델 학습의 안정성과 성능을 최적화하는 분산 OS 및 런타임을 개발하며, 주로 Rust와 Python을 사용합니다.

주요 업무

• Python 및 Rust 스택 전반에 걸친 작업 수행 • 대규모 슈퍼컴퓨터에서 머신러닝 워크로드를 오케스트레이션하고 모니터링하는 소프트웨어 설계, 구축 및 유지 관리 • 프론티어 규모의 연산 오케스트레이션을 지원하기 위한 소프트웨어 스택 프로파일링 및 최적화 • 장기 실행 작업의 신뢰성, 관측 가능성 및 내결함성 개선 • 대규모 클러스터 전반의 복잡한 분산 시스템 문제 디버깅 • 연구원들을 지원하기 위해 변화하는 ML 시스템 요구사항에 대응

자격 요건

• 분산 시스템 개발 경험 (단순 운영이 아닌 개발 경험 필수) • 대규모 시스템의 동작 및 장애 방식에 대한 깊은 이해 • 성능, 정확성 및 신뢰성에 대한 높은 기준 • Python 및 Rust 또는 기타 시스템 프로그래밍 언어(예: C++) 숙련도 • 탄탄한 Linux 지식 및 시스템 레벨 디버깅, 성능 분석, 메모리 프로파일링 능력 • 비동기 및 동시성 시스템 개발 경험 및 숙련도 • 높은 소유권 의식과 주도적인 엔지니어링 역량

기술 스택

RustPythonC++LinuxDistributed SystemsAsynchronous SystemsConcurrent Systems
AI 점수 95core

openai의 다른 공고

알림

알림이 없습니다