
together
LLM Inference Frameworks and Optimization Engineer
개발AI·머신러닝인프라·DevOps연구·R&D
AI 요약
Together AI에서 대규모 언어 모델(LLM) 및 멀티모달 모델의 효율적이고 확장 가능한 추론을 위한 프레임워크와 인프라를 설계하고 최적화할 엔지니어를 채용합니다. 분산 추론 엔진 개발과 GPU 가속기 최적화가 핵심입니다.
주요 업무
• 텍스트, 이미지, 멀티모달 생성 모델을 위한 결함 허용 및 고동시성 분산 추론 엔진 설계 및 개발
• MoE 병렬화, 텐서 병렬화, 파이프라인 병렬화 등 분산 추론 전략 구현 및 최적화
• CUDA graph, TensorRT-LLM, torch.compile, speculative decoding 등을 활용한 효율성 및 확장성 강화
• 하드웨어 팀과 협업하여 GPU, TPU 또는 커스텀 가속기의 성능 병목 분석 및 공동 최적화
• AI 연구원 및 인프라 엔지니어와 협력하여 효율적인 모델 실행 계획 개발 및 E2E 서빙 파이프라인 최적화
자격 요건
• 딥러닝 추론 프레임워크, 분산 시스템 또는 고성능 컴퓨팅(HPC) 분야 3년 이상 경력
• TensorRT-LLM, vLLM, SGLang, TGI 중 하나 이상의 LLM 추론 프레임워크 경험
• GPU 프로그래밍(CUDA/Triton/TensorRT), 컴파일러, 모델 양자화, GPU 클러스터 스케줄링 중 하나 이상의 배경 지식
• Mooncake, PagedAttention 등 KV 캐시 시스템에 대한 깊은 이해
• Python 및 C++/CUDA 능숙
• Transformer 아키텍처 및 LLM/VLM/Diffusion 모델 최적화에 대한 깊은 이해
• (우대) RDMA/RoCE 기반 대규모 데이터 센터 네트워크 소프트웨어 개발 경험
• (우대) 3FS, HDFS, Ceph 등 분산 파일 시스템 익숙자
• (우대) Kubernetes(K8S) 등 오픈소스 분산 스케줄링 프레임워크 익숙자
• (우대) 오픈소스 딥러닝 추론 프로젝트 기여 경험
기술 스택
PythonC++CUDATritonTensorRTTensorRT-LLMvLLMSGLangTGIPyTorchtorch.compileTransformerMoERDMARoCEKubernetes3FSHDFSCeph
together의 다른 공고
Head of Hyperscaler Partnerships
영업Software Engineer(Amsterdam)
개발Product Manager, AI Infrastructure
제품·기획·디자인Research Intern RL & Post-Training Systems, Turbo (Fall 2026)
연구·R&D, AI·머신러닝Workplace Coordinator
경영지원, 현장운영Senior Software Engineer(Amsterdam)
개발, 보안Research Intern, Model Shaping (Fall 2026)
AI·머신러닝, 연구·R&DResearch Intern, Inference (Fall 2026)
AI·머신러닝, 연구·R&D, 개발, 인프라·DevOps