openai

Training Performance Engineer

개발AI·머신러닝인프라·DevOps연구·R&D

AI 요약

OpenAI의 Training Runtime 팀에서 대규모 분산 머신러닝 학습 런타임의 효율성을 극대화할 Training Performance Engineer를 채용합니다. GPU 커널 최적화, 통신 병목 현상 분석, 모델 샤딩 등을 통해 세계 최고 수준의 모델 학습 속도와 안정성을 확보하는 역할을 수행합니다.

주요 업무

- 컴퓨팅, 통신, 저장소 전반의 성능 병목 현상 프로파일링 및 분석 - 대규모 분산 모델 학습을 위한 GPU 활용도 및 처리량 최적화 - 커널 효율성, 스케줄링, 집합 통신 성능 개선을 위한 시스템 엔지니어와 협업 - 엔드투엔드 처리량 향상을 위한 모델 그래프 변환(Graph Transforms) 구현 - 클러스터 전반의 MFU(Model Flops Utilization), 처리량, 가동 시간 모니터링 및 시각화 도구 구축 - 연구원과 협력하여 새로운 모델 아키텍처의 효율적인 확장성 보장 - 대규모 학습 작업의 신뢰성과 효율성을 높이기 위한 인프라 의사결정 참여

자격 요건

- Python 및 C++ 숙련도 (Rust 또는 CUDA 경험자 우대) - 다중 GPU 시스템 또는 HPC 클러스터 기반 분산 학습 실행 경험 - 복잡한 분산 시스템 디버깅 및 효율성 측정 능력 - PyTorch, JAX, TensorFlow 등 프레임워크 및 대규모 학습 루프 구조 이해 - (우대) NCCL, MPI, UCX 등 통신 라이브러리 숙지 - (우대) 대규모 데이터 로딩 및 체크포인팅 시스템 경험 - (우대) 학습 런타임, 분산 스케줄링, ML 컴파일러 최적화 관련 업무 경험

기술 스택

PythonC++RustCUDAPyTorchJAXTensorFlowNCCLMPIUCX

AI 점수 100core

지원하기

Training Performance Engineer

AI 요약

주요 업무

자격 요건

기술 스택

openai의 다른 공고

알림