openai

Agent Post-Training, Artifacts Research

AI·머신러닝연구·R&D

AI 요약

OpenAI의 Agent Post-Training, Artifacts Research 직무로, 차세대 에이전트 모델의 후훈련(post-training) 성능을 개선하는 연구·엔지니어링 역할입니다. RL, 데이터 파이프라인, grader, reward signal, eval, synthetic data 등을 활용해 문서·스프레드시트·슬라이드·대시보드 등 실사용 아티팩트를 더 정확하고 유용하게 생성하도록 모델을 고도화합니다.

주요 업무

frontier agent의 후훈련 성능 개선을 위한 실험 설계 및 실행, post-training stack(RL, data pipelines, graders, reward signals, evals, diagnostics, model-behavior analysis) end-to-end 개선, 모델 실패를 드러내는 eval/environment 구축 및 실패의 학습 데이터화, Codex·ChatGPT 제품팀과의 협업을 통한 제품 신호의 모델 개선 반영, synthetic data·objective·data mixture·eval loop 등 초기 학습 및 alignment 개입, 대규모 training/launch의 velocity·reliability·observability·reproducibility·cost·latency 개선, production-like 환경에서의 multi-agent system 및 관련 cross-functional 프로젝트 수행, shipped/near-shipped 모델의 hard failure 디버깅과 개선안 도출.

자격 요건

필수: machine learning, software engineering, systems, statistics 또는 관련 분야의 강한 기술적 기초와 빠른 학습 능력. LLMs, RL, RLHF/RLAIF, post-training, evals, graders, synthetic data, model training, coding agents, tool-using agents, production ML systems 중 하나 이상에 대한 실무 경험. 모호한 문제를 가설 수립-파이프라인 구축-실험-분석-의사결정으로 전환할 수 있는 역량. 연구, 제품, 인프라, 데이터, eval, safety 경계를 넘나들며 명확히 소통할 수 있는 능력. 우대/가점: consulting, finance, marketing, operations, data science 배경.

기술 스택

LLMRLRLHFRLAIFpost-trainingevalsgraderssynthetic datamodel trainingcoding agentstool-using agentsproduction ML systemsdata pipelinesreward signalsdiagnosticsbehavioral analysis

AI 점수 98core

지원하기

Agent Post-Training, Artifacts Research

AI 요약

주요 업무

자격 요건

기술 스택

openai의 다른 공고

알림