openai

Agent Post-Training, Computer Use Research

AI·머신러닝연구·R&D개발

AI 요약

OpenAI의 Agent Post-Training, Computer Use Research 포지션은 컴퓨터를 조작하는 에이전트 모델의 후훈련과 성능 개선을 담당합니다. RL/RLHF, 데이터 파이프라인, 평가체계, 보상신호, 환경 설계, 디버깅을 통해 브라우저·데스크톱 사용 능력을 향상시키며, 연구·제품·인프라 팀과 협업해 실제 제품에 반영합니다.

주요 업무

복잡한 computer use(브라우저/데스크톱) 행동을 개선하는 실험 설계 및 실행. post-training 스택(RL, 데이터 파이프라인, graders, reward signals, evals, diagnostics, model-behavior analysis) 전반의 개선. 실패를 드러내는 eval과 환경을 만들고 이를 학습 데이터/제품 수정/연구 방향으로 전환. Codex·ChatGPT 제품팀과 협업하여 사용자 요구를 모델 개선으로 연결. early-training 및 alignment 개입(data mixtures, objectives, synthetic data, eval loops) 수행. 대규모 학습/런치의 속도, 신뢰성, 관측성, 재현성, 비용, latency 개선. multi-agent systems 등 크로스펑셔널 프로젝트 수행 및 shipped 모델의 난제 디버깅.

자격 요건

필수: 머신러닝, 소프트웨어 엔지니어링, 시스템, 통계 또는 관련 분야의 탄탄한 기술 기초와 빠른 학습 능력. LLMs, RL, RLHF/RLAIF, post-training, evals, graders, synthetic data, model training, coding agents, tool-using agents, production ML systems 중 하나 이상에 대한 실무 경험. 모호한 행동 문제를 가설-실험-분석-개선으로 전환할 수 있는 역량. 연구, 제품, 인프라, 데이터, evals, safety 경계를 넘나들며 명확히 커뮤니케이션할 수 있는 능력. 우대 성격: 복잡하고 개방형 문제를 즐기며, 제품 임팩트와 모델 행동 자체에 관심이 큰 사람.

기술 스택

LLMsRLRLHFRLAIFpost-trainingevalsgraderssynthetic datamodel trainingcoding agentstool-using agentsproduction ML systems

AI 점수 98core

지원하기

Agent Post-Training, Computer Use Research

AI 요약

주요 업무

자격 요건

기술 스택

openai의 다른 공고

알림