Jobs
openai 로고

openai

Agent Post-Training, Personality

AI·머신러닝연구·R&D

AI 요약

OpenAI의 Agent Post-Training, Personality 팀에서 차세대 에이전트의 협업 품질과 성격을 개선할 연구·개발 성격의 역할을 채용합니다. 모델의 행동을 정성적 판단에서 평가 지표, 학습 데이터, 보상 신호로 전환하고, RL/RLHF·reward modeling·evals·synthetic data·pretraining 연계 개선을 통해 제품에 반영하는 것이 핵심입니다.

주요 업무

에이전트의 협업 품질과 성격을 정의하고, 좋은 협업 행동을 평가할 수 있는 기준을 수립합니다. 정성적 판단을 evals, graders, training data, reward signals로 변환하고, 모델 행동 개선을 위한 실험과 학습을 수행합니다. 사용자 신호를 분석해 신뢰, 만족도, 지속 사용, 성공적 결과를 높이는 행동을 연구합니다. human experts와 함께 preference data와 rollout을 만들고, reward models 및 RL objectives를 개선합니다. pretraining/early-training 팀과 data mixtures, objectives, synthetic data를 조율하며, 오래된 학습 데이터를 지속적으로 업데이트하는 파이프라인도 구축합니다. 또한 ChatGPT, Codex 등 제품팀과 협업해 실제 워크플로우에서 개선 효과를 검증합니다.

자격 요건

필수/우대가 통합된 형태로, 사용자 관점에서 모델 경험을 해석할 수 있는 사고방식, subjective한 문제를 검증 가능한 가설과 엄밀한 평가로 바꾸는 능력, 모델 행동의 품질을 판단하는 taste, 그리고 machine learning, software engineering, statistics, behavioral science, HCI 또는 관련 분야의 탄탄한 기술 기반이 요구됩니다. 또한 LLMs, post-training, RL/RLHF, reward modeling, evals, synthetic data, pretraining data, production ML systems 경험이 있으면 유리하며, 연구자·엔지니어·제품팀·디자이너·도메인 전문가와 명확히 소통하고 협업할 수 있어야 합니다. 모호하고 신호가 noisy한 capability 문제를 데이터, training, evals, product changes로 풀어내는 역량도 중요합니다.

기술 스택

machine learningsoftware engineeringstatisticsbehavioral scienceHCILLMspost-trainingRLRLHFreward modelingevalssynthetic datapretraining dataproduction ML systems
AI 점수 98core

openai의 다른 공고

알림

알림이 없습니다