Jobs
together 로고

together

LLM Inference Frameworks and Optimization Engineer

개발AI·머신러닝인프라·DevOps연구·R&D

AI 요약

Together AI에서 대규모 언어 모델(LLM) 및 멀티모달 모델의 효율적이고 확장 가능한 추론을 위한 프레임워크와 인프라를 설계하고 최적화할 엔지니어를 채용합니다. 분산 추론 엔진 개발과 GPU 가속기 최적화가 핵심입니다.

주요 업무

• 텍스트, 이미지, 멀티모달 생성 모델을 위한 결함 허용 및 고동시성 분산 추론 엔진 설계 및 개발 • MoE 병렬화, 텐서 병렬화, 파이프라인 병렬화 등 분산 추론 전략 구현 및 최적화 • CUDA graph, TensorRT-LLM, torch.compile, speculative decoding 등을 활용한 효율성 및 확장성 강화 • 하드웨어 팀과 협업하여 GPU, TPU 또는 커스텀 가속기의 성능 병목 분석 및 공동 최적화 • AI 연구원 및 인프라 엔지니어와 협력하여 효율적인 모델 실행 계획 개발 및 E2E 서빙 파이프라인 최적화

자격 요건

• 딥러닝 추론 프레임워크, 분산 시스템 또는 고성능 컴퓨팅(HPC) 분야 3년 이상 경력 • TensorRT-LLM, vLLM, SGLang, TGI 중 하나 이상의 LLM 추론 프레임워크 경험 • GPU 프로그래밍(CUDA/Triton/TensorRT), 컴파일러, 모델 양자화, GPU 클러스터 스케줄링 중 하나 이상의 배경 지식 • Mooncake, PagedAttention 등 KV 캐시 시스템에 대한 깊은 이해 • Python 및 C++/CUDA 능숙 • Transformer 아키텍처 및 LLM/VLM/Diffusion 모델 최적화에 대한 깊은 이해 • (우대) RDMA/RoCE 기반 대규모 데이터 센터 네트워크 소프트웨어 개발 경험 • (우대) 3FS, HDFS, Ceph 등 분산 파일 시스템 익숙자 • (우대) Kubernetes(K8S) 등 오픈소스 분산 스케줄링 프레임워크 익숙자 • (우대) 오픈소스 딥러닝 추론 프로젝트 기여 경험

기술 스택

PythonC++CUDATritonTensorRTTensorRT-LLMvLLMSGLangTGIPyTorchtorch.compileTransformerMoERDMARoCEKubernetes3FSHDFSCeph
AI 점수 100core

together의 다른 공고

알림

알림이 없습니다