openai

Researcher, Agent Post-Training, Personality

AI·머신러닝연구·R&D

AI 요약

OpenAI의 Agent Post-Training 팀에서 프론티어 에이전트의 협업 성향과 성능을 고도화할 연구·개발 인재를 모집합니다. 모델의 personality를 사용자 관점에서 정의하고, 평가(evals), 학습 데이터, 보상 신호, RL/RLHF, synthetic data, post-training 개선을 통해 실제 제품에 반영하는 역할입니다. ML, SW 엔지니어링, 통계, 행동과학, HCI 등 탄탄한 기반과 LLM/후학습 경험이 중요합니다.

주요 업무

에이전트 협업 품질에 대한 체계적 이해 구축, 모델 행동의 정성적 판단을 eval/가설/학습 개입으로 전환, 사용자 신호 분석을 통한 신뢰·만족·성과 요인 파악, human expert 및 trainer와 함께 preference data와 tasteful rollout 제작, reward model 및 RL objective 개선, pretraining/early-training과 연계한 데이터 믹스·synthetic data·objective 설계, 오래된 학습 데이터 업데이트 파이프라인 구축, ChatGPT/Codex 등 제품팀과 협업하여 실제 워크플로우에서 개선 검증, 문제 발견부터 실험·학습·평가·런치까지 end-to-end 오너십 수행.

자격 요건

필수/우대 통합: 사용자 관점에서 모델 경험을 깊이 이해할 수 있는 사람, 주관적 제품 질문을 검증 가능한 가설과 엄밀한 평가로 전환할 수 있는 사람, 모델 행동의 다양성과 적응성을 중시하는 사람, 프론티어 에이전트의 커뮤니케이션·협업·신뢰 형성 방식을 설계하고 싶은 사람. 강한 기술 기반(머신러닝, software engineering, statistics, behavioral science, HCI 또는 관련 분야)과 빠른 학습 능력이 필요하며, LLM, post-training, RL/RLHF, reward modeling, evals, synthetic data, pretraining data, production ML systems 경험이 있으면 유리합니다. 연구자, 엔지니어, 제품, 디자이너, 도메인 전문가, human-data 팀과 협업하고 명확히 소통할 수 있어야 합니다.

기술 스택

LLMpost-trainingRLRLHFreward modelingevalssynthetic datapretrainingproduction ML systemsmachine learningsoftware engineeringstatisticsbehavioral scienceHCI

AI 점수 98core

지원하기

Researcher, Agent Post-Training, Personality

AI 요약

주요 업무

자격 요건

기술 스택

openai의 다른 공고

알림