together

Research Intern RL & Post-Training Systems, Turbo (Fall 2026)

연구·R&DAI·머신러닝

AI 요약

Together AI의 Research Intern 포지션으로, 대규모 언어모델의 post-training과 reinforcement learning을 효율적·확장 가능·신뢰성 있게 만드는 연구를 수행합니다. RL 알고리즘과 inference 시스템을 함께 설계하며, Python 기반 실험과 대규모 ML 연구 경험이 중요합니다. C++/CUDA 등 시스템 수정 역량은 우대됩니다.

주요 업무

대규모 언어모델의 RL 및 post-training 효율화 연구. inference behavior를 고려한 RL/선호최적화 목적함수 설계. deterministic하고 reproducible한 RL rollout을 지원하는 inference mechanism 연구. batching, scheduling, memory management, KV-cache policy, sampling control, runtime abstraction 최적화. rollout cost, latency, throughput에 따른 reward improvement 및 generalization scaling 분석. post-training/RL 효율성 벤치마크와 진단 지표 설계. 장기 학습 실패 모드와 시스템 제약의 영향 분석.

자격 요건

필수: CS, EE 또는 관련 분야의 PhD 또는 MS 과정 재학 중(우수 학부생도 고려). RL 또는 대형 모델 post-training(RLHF, RLAIF, GRPO, preference optimization), ML systems(inference engines, runtimes, distributed systems), 대규모 empirical ML research/evaluation 중 하나 이상의 연구 경험. 통제된 실험 설계와 noisy result 해석, 원칙적인 결론 도출 역량. 강한 Python 실험 역량. 우대: C++, CUDA 또는 유사 기술로 inference/training system 수정 경험, leading ML/NLP 학회(NeurIPS, ICML, ICLR, ACL, EMNLP) 논문, 모델 최적화 및 hardware acceleration 이해, 오픈소스 ML 프로젝트 기여.

기술 스택

PythonC++CUDARLHFRLAIFGRPODPOPyTorchTransformerKV-cache

AI 점수 95core

지원하기

Research Intern RL & Post-Training Systems, Turbo (Fall 2026)

AI 요약

주요 업무

자격 요건

기술 스택

together의 다른 공고

알림