
together
Staff Machine Learning Engineer, Voice AI
AI·머신러닝개발
AI 요약
Together AI에서 음성 AI 플랫폼의 모델 서빙 레이어를 최적화하고 이끌어갈 Staff ML Engineer를 채용합니다. Whisper, Kokoro 등 음성 모델의 추론 성능(지연 시간 및 처리량)을 극대화하기 위해 TRT-LLM, SGLang 등의 엔진을 활용하며, GPU 활용도 최적화 및 실시간 오디오 스트리밍 배칭 전략을 설계합니다.
주요 업무
- STT, TTS 및 Speech-to-Speech 모델 최적화를 위한 음성 추론 로드맵 및 기술 전략 수립
- 최고의 TTFB, 처리량, GPU 활용도를 목표로 하는 서빙 아키텍처 설계 및 구현
- 실시간 오디오에 맞춤화된 배칭 전략, 스트리밍 추론 파이프라인, 메모리 관리 설계
- WER(단어 오류율), 자연스러움, 지연 시간 등을 측정하는 음성 평가 프레임워크 및 내부 벤치마크 구축
- 오디오 네이티브 LLM, 코덱 기반 아키텍처 등 차세대 모델 지원 아키텍처 설계
- Cartesia, Deepgram, Rime 등 모델 파트너사와의 통합 및 최적화 협업 주도
- GPU 커널 동작부터 프레임워크 레벨까지의 시스템 프로파일링 및 성능 병목 해결
- 플랫폼 엔지니어링 리더십과의 협업을 통한 실시간 음성 API 요구사항 충족 및 플랫폼 아키텍처 영향력 행사
- 고객이 STT/TTS 모델을 파인튜닝할 수 있는 기능의 기술적 방향성 제시 및 확장
자격 요건
- 8년 이상의 ML 엔지니어링, 모델 서빙, 추론 최적화 또는 프로덕션 규모의 ML 인프라 경험
- LLM 서빙 엔진(vLLM, SGLang, TensorRT-LLM 등)에 대한 깊고 실무적인 전문성 (엔진 내부 수정 및 디버깅 가능 수준)
- Python 및 PyTorch 숙련도, CUDA 커널, 메모리 계층 구조, 프로파일링 툴체인 등 GPU 최적화 역량
- 대규모 시스템 디자인 판단력 및 높은 자율성을 바탕으로 한 기술 리더십
- 음성 및 오디오 ML(ASR/TTS 아키텍처, 오디오 신호 처리)에 대한 탄탄한 기초 (우대)
- 오디오 코덱 및 토큰화 스키마(SNAC, Encodec, DAC)에 대한 이해 (우대)
- 대규모 음성 모델 학습 또는 파인튜닝 경험 (우대)
- 컴퓨터공학, 전기공학 또는 관련 분야 학사/석사 학위 또는 이에 준하는 실무 경험
기술 스택
PythonPyTorchCUDAvLLMSGLangTensorRT-LLMWhisperParakeetOrpheusKokoroSNACEncodecDAC
together의 다른 공고
Head of Hyperscaler Partnerships
영업Software Engineer(Amsterdam)
개발Product Manager, AI Infrastructure
제품·기획·디자인Research Intern RL & Post-Training Systems, Turbo (Fall 2026)
연구·R&D, AI·머신러닝Workplace Coordinator
경영지원, 현장운영Senior Software Engineer(Amsterdam)
개발, 보안Research Intern, Model Shaping (Fall 2026)
AI·머신러닝, 연구·R&DFrontier Agents Intern (Fall 2026)
AI·머신러닝, 연구·R&D