openai

Agent Post-Training, Frontier Evals and Environments Research

연구·R&DAI·머신러닝개발

AI 요약

OpenAI의 Agent Post-Training, Frontier Evals and Environments Research 포지션으로, 차세대 에이전트와 모델의 성능을 측정·개선할 평가 환경과 RL 환경을 설계하는 연구 직무입니다. LLM, RL, post-training, evals, graders, synthetic data, coding/tool-using agents 경험을 바탕으로 연구와 엔지니어링을 연결하며, 대규모 모델 런과 제품 개선에 직접 기여합니다.

주요 업무

북극성(north star) 모델 환경을 설계해 안전한 AGI/ASI 진전을 유도하는 평가 체계 구축. RL 환경을 만들어 모델 한계를 확장하고 frontier model의 능력·스킬·행동을 측정. 모델 행동을 자동으로 탐색하는 방법론 개발. 평가 방법론의 확장성, 신뢰성, 분산(variance) 등 측정 과학 심화. 대규모 training run의 방향을 함께 결정하고 결과를 해석. 지속적 평가를 위한 확장 가능한 시스템과 프로세스 설계. 모델 이해를 자동화하는 self-improvement loop 구축. 연구, 제품, 인프라, 데이터, safety 팀과 협업하여 개선 사항을 제품에 반영.

자격 요건

필수: 머신러닝, 소프트웨어 엔지니어링, 시스템, 통계 또는 관련 분야의 강한 기술적 기초와 빠른 학습 능력. LLM, RL, RLHF/RLAIF, post-training, evals, graders, synthetic data, model training, coding agents, tool-using agents, production ML systems 중 하나 이상에 대한 실무 경험. 불명확하고 개방적인 문제를 연구와 엔지니어링으로 해결할 수 있는 역량. 우대/강점: 연구, 제품, 인프라, 데이터, evals, safety 경계를 넘나들며 명확히 커뮤니케이션할 수 있는 능력. 에이전트의 유용성, 신뢰성, 정직성, 취향(taste)에 대한 관점과 제품 임팩트 지향성. 가설 설정부터 파이프라인 구축, 모델 실행, 결과 분석, 다음 행동 결정까지 수행 가능한 실험 역량.

기술 스택

LLMRLRLHFRLAIFpost-trainingevalsgraderssynthetic datamodel trainingcoding agentstool-using agentsproduction ML systemsmachine learningsoftware engineeringsystemsstatistics

AI 점수 98core

지원하기

Agent Post-Training, Frontier Evals and Environments Research

AI 요약

주요 업무

자격 요건

기술 스택

openai의 다른 공고

알림