openai

Software Engineer, Workload Enablement

개발AI·머신러닝인프라·DevOps하드웨어·임베디드품질·테스트

AI 요약

OpenAI의 Scaling 팀에서 차세대 AI 인프라의 성능을 최적화하고 검증할 소프트웨어 엔지니어를 채용합니다. 새로운 하드웨어 플랫폼에 LLM 학습 및 추론 워크로드를 포팅하고, 분산 컴퓨팅 환경에서의 병목 현상을 분석하여 시스템의 안정성과 효율성을 극대화하는 역할을 수행합니다.

주요 업무

신규 플랫폼/SKU에 주요 추론 및 학습 워크로드 포팅 및 검증, 시스템 전반(CPU, GPU, 메모리, 네트워크, 스토리지 등)의 실제 동작을 캡처하는 벤치마크 및 스트레스 테스트 세트 구축, 분산 학습/추론 성능 분석 및 튜닝(집합 통신, 연산/통신 오버랩, 커널 병목 등), CI 및 실험실 환경을 위한 반복 가능한 테스트 하네스 제작, Kubernetes 통합 및 텔레메트리 확보를 통한 운영 가용성 및 확장성 보장, 벤더 및 내부 이해관계자와의 협업을 통한 버그 리포트 및 이슈 우선순위 지정.

자격 요건

컴퓨터공학 또는 전기공학 학사 학위(또는 그에 준하는 실무 경험), ML 시스템, 성능 엔지니어링, 분산 시스템 또는 HPC 분야 5년 이상 경력, PyTorch 및 현대적 LLM 학습/추론 스택에 대한 강력한 실무 경험, 대규모 분산 학습 개념(데이터/모델/파이프라인 병렬화, 집합 통신) 숙지, RDMA 및 통신 라이브러리(NCCL, RCCL) 디버깅 및 최적화 경험, Python 능숙 및 성능 임계 코드(C++/CUDA/HIP) 작성/독해 능력, 강력한 프로파일링 및 디버깅 기술(Nsight, rocprof, perf, flamegraphs 등).

기술 스택

PythonPyTorchC++CUDAHIPNCCLRCCLRDMAKubernetesNsightrocprofperfflamegraphsNVlink

AI 점수 98core

지원하기

Software Engineer, Workload Enablement

AI 요약

주요 업무

자격 요건

기술 스택

openai의 다른 공고

알림