baseten

Software Engineer - Model API's

AI 요약

Baseten은 AI 기업들을 위한 모델 추론 플랫폼을 제공하며, 최근 1억 5천만 달러의 시리즈 D 투자를 유치했습니다. 이번 채용은 모델 성능(MP) 팀에서 모델 API의 속도, 안정성, 비용 효율성을 보장하는 역할을 담당할 엔지니어를 찾고 있습니다. 주요 업무는 분산 시스템, 모델 서빙, 개발자 경험 개선이며, LLM 런타임 및 GPU 최적화 경험이 있는 지원자를 우대합니다. 경쟁력 있는 보상과 성장 기회를 제공합니다.

주요 업무

모델 API 설계, 구축 및 운영 (고급 추론 기능 포함), TensorRT-LLM 커널 프로파일링 및 최적화, CUDA 커널 성능 분석 및 사용자 정의 연산자 구현, 멀티 GPU 설정 최적화, 런타임 성능 개선 프로덕션화 (추측 디코딩, 양자화, 배치, KV 캐시 재사용 등), 포괄적인 벤치마킹 프레임워크 구축, 심층적인 관찰 가능성 계측 및 벤치마크 구축, 플랫폼 기본 사항 구현 (API 버전 관리, 유효성 검사, 사용량 측정, 할당량, 인증), 개발자 친화적인 모델 서빙 경험 제공을 위한 타 팀과의 협업.

자격 요건

3년 이상 분산 시스템 또는 대규모 API 구축 및 운영 경험, 낮은 지연 시간의 안정적인 백엔드 서비스(속도 제한, 인증, 할당량, 측정, 마이그레이션) 관리 경험, 인프라 및 성능 감각(프로파일링, 추적, 용량 계획, SLO 관리), 복잡한 시스템 디버깅 능력, 명확한 설계 문서 작성 및 협업 능력. 우대사항: LLM 런타임(vLLM, SGLang, TensorRT-LLM) 경험 또는 오픈소스 추론 엔진 기여 경험, Kubernetes, 서비스 메시, API 게이트웨이, 분산 스케줄링 지식, 개발자 대상 인프라 또는 오픈소스 API 배경. ML 경험은 필수는 아니지만 플러스 요인.

기술 스택

PythonCUDATensorRTTensorRT-LLMvLLMSGLangTGIKubernetesService MeshAPI GatewayDistributed Scheduling

지원하기

Software Engineer - Model API's

AI 요약

주요 업무

자격 요건

기술 스택

baseten의 다른 공고

알림