openai

Technical Lead Manager - Training Runtime, Data(set) Movement

개발인프라·DevOps연구·R&D

AI 요약

OpenAI의 Training Runtime 팀에서 대규모 모델 학습을 위한 데이터 이동·데이터셋 읽기 플랫폼을 책임질 Technical Lead Manager를 채용합니다. 분산 학습 인프라, 데이터 로딩, 저장소 계약, 버전관리, 디버깅 도구, 신뢰성 보장까지 아우르며 Python 및 저수준 시스템 코드로 직접 구현합니다. 대규모 분산 시스템 경험과 기술 리더십이 핵심입니다.

주요 업무

여러 학습 프레임워크를 위한 unified dataset read platform 설계 및 구현. dataset API, storage-format 기대치, registration/versioning, migration path 정의. read path의 reliability 설계(stateful iteration, caching, fast restart, recovery, operational contract). 텍스트/멀티모달/RL 데이터를 검사하는 terminal 및 web-based visualizer 개발. core data loading, service, caching, reliability 경로의 production code 작성 및 리뷰. training framework, RL, multimodal, storage, runtime, cluster infrastructure 팀과 협업. 장기적으로 checkpoint load/save 및 snapshot transfer를 포함한 데이터 이동 시스템까지 ownership 확장.

자격 요건

필수: 대규모 dataset, data loading, storage 또는 distributed training infrastructure 구축/운영 경험. API 설계, 디버깅 ergonomics, 성능, bit-level correctness를 모두 중시할 수 있는 역량. 대규모 분산 학습의 failure mode와 데이터 시스템의 영향에 대한 이해. stateful iterators, checkpoint/restart semantics, caching, remote services, high-throughput storage reads 경험. Python 및 저수준 시스템 코드에 대한 편안함. 멀티모달, video, reinforcement learning, pretraining data pipeline 경험이 있으면 유리. 코드와 기술 판단으로 초기 팀을 이끌 수 있고, 이후 엔지니어 관리로 확장 가능한 리더십. 우대: Rust 또는 C++ 경험.

기술 스택

PythonRustC++torch.utils.data

AI 점수 95core

지원하기

Technical Lead Manager - Training Runtime, Data(set) Movement

AI 요약

주요 업무

자격 요건

기술 스택

openai의 다른 공고

알림