xai

Member of Technical Staff - Post-Training and RL

AI·머신러닝연구·R&D

AI 요약

xAI에서 포스트 트레이닝(Post-training) 및 강화학습(RL) 전문가를 채용합니다. 보상 모델링, RLHF, DPO 등을 통해 모델의 추론 능력과 진실성을 향상시키는 핵심 과제를 수행하며, AI 모델에 대한 깊은 이해와 실전 경험을 갖춘 인재를 찾고 있습니다.

주요 업무

포스트 트레이닝 및 강화학습 과제 수행, 보상 모델링(Reward Modeling), 선호도 최적화(RLHF/DPO), 모델의 추론 능력·진실성·실무 능력 향상을 위한 강화학습 적용

자격 요건

진실을 추구하는 AI 개발에 대한 신념, 포스트 트레이닝 및 강화학습(RL) 기술을 통한 모델 구축 열정, AI 모델 파워 유저, RLHF/DPO 또는 수백만 명이 사용하는 모델 학습 경험(우대), 강력한 커뮤니케이션 능력 및 주도적인 업무 태도

기술 스택

Reinforcement LearningRLHFDPOReward ModelingPost-training

AI 점수 100core

지원하기

Member of Technical Staff - Post-Training and RL

AI 요약

주요 업무

자격 요건

기술 스택

xai의 다른 공고

알림