Jobs
together 로고

together

Staff Machine Learning Engineer, Voice AI

AI·머신러닝개발

AI 요약

Together AI에서 음성 AI 플랫폼의 모델 서빙 레이어를 최적화하고 이끌어갈 Staff ML Engineer를 채용합니다. Whisper, Kokoro 등 음성 모델의 추론 성능(지연 시간 및 처리량)을 극대화하기 위해 TRT-LLM, SGLang 등의 엔진을 활용하며, GPU 활용도 최적화 및 실시간 오디오 스트리밍 배칭 전략을 설계합니다.

주요 업무

- STT, TTS 및 Speech-to-Speech 모델 최적화를 위한 음성 추론 로드맵 및 기술 전략 수립 - 최고의 TTFB, 처리량, GPU 활용도를 목표로 하는 서빙 아키텍처 설계 및 구현 - 실시간 오디오에 맞춤화된 배칭 전략, 스트리밍 추론 파이프라인, 메모리 관리 설계 - WER(단어 오류율), 자연스러움, 지연 시간 등을 측정하는 음성 평가 프레임워크 및 내부 벤치마크 구축 - 오디오 네이티브 LLM, 코덱 기반 아키텍처 등 차세대 모델 지원 아키텍처 설계 - Cartesia, Deepgram, Rime 등 모델 파트너사와의 통합 및 최적화 협업 주도 - GPU 커널 동작부터 프레임워크 레벨까지의 시스템 프로파일링 및 성능 병목 해결 - 플랫폼 엔지니어링 리더십과의 협업을 통한 실시간 음성 API 요구사항 충족 및 플랫폼 아키텍처 영향력 행사 - 고객이 STT/TTS 모델을 파인튜닝할 수 있는 기능의 기술적 방향성 제시 및 확장

자격 요건

- 8년 이상의 ML 엔지니어링, 모델 서빙, 추론 최적화 또는 프로덕션 규모의 ML 인프라 경험 - LLM 서빙 엔진(vLLM, SGLang, TensorRT-LLM 등)에 대한 깊고 실무적인 전문성 (엔진 내부 수정 및 디버깅 가능 수준) - Python 및 PyTorch 숙련도, CUDA 커널, 메모리 계층 구조, 프로파일링 툴체인 등 GPU 최적화 역량 - 대규모 시스템 디자인 판단력 및 높은 자율성을 바탕으로 한 기술 리더십 - 음성 및 오디오 ML(ASR/TTS 아키텍처, 오디오 신호 처리)에 대한 탄탄한 기초 (우대) - 오디오 코덱 및 토큰화 스키마(SNAC, Encodec, DAC)에 대한 이해 (우대) - 대규모 음성 모델 학습 또는 파인튜닝 경험 (우대) - 컴퓨터공학, 전기공학 또는 관련 분야 학사/석사 학위 또는 이에 준하는 실무 경험

기술 스택

PythonPyTorchCUDAvLLMSGLangTensorRT-LLMWhisperParakeetOrpheusKokoroSNACEncodecDAC
AI 점수 98core

together의 다른 공고

알림

알림이 없습니다