
moreh
경력 3년 이상
정규직(풀타임)대면혼합근무AI·머신러닝인프라·DevOps연구·R&D
AI 요약
대규모 LLM 학습 시스템을 설계·구축·운영하는 LLM Training Engineer 채용 공고입니다. RL 기반 학습 파이프라인, 분산 GPU 환경, 학습 성능 최적화, Synthetic Data Generation, Reward Model 구축 등 최신 LLM 연구를 프로덕션 환경에 구현하는 역할입니다.
주요 업무
Reinforcement Learning 기반 LLM Training Pipeline 설계 및 개발, 대규모 Distributed GPU 환경 학습 시스템 구축 및 운영, PyTorch/CUDA/DeepSpeed/FSDP 기반 성능 최적화, Reasoning/Code/Tool Use 모델 학습 및 평가 시스템 개발, Synthetic Data Generation 및 Reward Model Pipeline 구축, 학습 병목 분석 및 개선, 최신 연구 결과의 Production-Grade Training System 구현, Large-Scale Experimentation 및 Model Evaluation 자동화
자격 요건
LLM Training 또는 Large-Scale Deep Learning 경험, PyTorch 기반 학습 시스템 개발 경험, Distributed Training 및 Multi-GPU Optimization 경험, CUDA/NCCL/Mixed Precision 등 GPU Acceleration 이해, DeepSpeed/FSDP/Megatron-LM 등 학습 프레임워크 경험, RLHF/RLVR/DPO 등 Post-Training 기법 이해
기술 스택
PyTorchCUDADeepSpeedFSDPMegatron-LMNCCLMixed PrecisionPythonGPUDistributed TrainingRLHFRLVRDPO