
cerebras
Engineering Lead, Inference Platform
AI 요약
Cerebras Systems는 세계 최대 AI 칩을 개발하는 회사로, GPU 대비 56배 큰 칩과 혁신적인 웨이퍼 스케일 아키텍처를 통해 단일 칩으로 수십 개의 GPU 성능을 제공합니다. 이 회사는 AI 훈련 및 추론 속도에서 업계를 선도하며, 대규모 ML 애플리케이션을 쉽게 실행할 수 있도록 지원합니다. 현재 토론토/서니베일에서 Inference Service Platform을 이끌 엔지니어링 리더를 찾고 있으며, LLM 추론 확장 및 엔터프라이즈 고객을 위한 온프레미스 솔루션 제공을 담당하게 됩니다. 분산 시스템 및 최신 모델 서빙 프레임워크 확장 경험이 필수적입니다.
주요 업무
Inference Service Platform의 기술 비전 및 로드맵 소유, 내부 확장부터 온프레미스 고객 솔루션까지 책임, 분산 추론 시스템의 엔드투엔드 개발 주도 (요청 라우팅, 자동 확장, Cerebras 하드웨어에서의 리소스 오케스트레이션 포함), 플랫폼 안정성 (>99.9% 가동 시간), 성능 및 효율성 보장, 고품질 엔지니어 팀 리딩, 멘토링 및 육성, 고객 중심의 온프레미스 솔루션 제품화 및 성공적인 배포 지원.
자격 요건
필수: 6년 이상의 고성능 소프트웨어 엔지니어링 경험, 3년 이상의 분산 시스템 또는 ML 인프라 팀 리딩 경험, LLM 추론 확장 경험 (낮은 지연 시간, 높은 처리량, 배치, 메모리/IO 효율성 최적화), 분산 추론/훈련 전문성, 모델 서빙 프레임워크(vLLM, TensorRT-LLM, Triton 등) 및 ML 스택(PyTorch, Hugging Face, SageMaker 등) 경험, 오케스트레이션(Kubernetes/EKS, Slurm) 및 대규모 클러스터 경험, 모니터링 및 신뢰성 엔지니어링(Prometheus/Grafana, 사고 대응 등) 경험, 팀 리딩 및 협업 능력.
우대: 온프레미스/프라이빗 클라우드 배포 경험, 엣지 또는 스트리밍 추론, 멀티 리전 시스템, AI 보안/개인 정보 보호 경험, 고객 대면 경험.
기술 스택
PythonvLLMTensorRT-LLMTritonPyTorchHugging FaceSageMakerKubernetesEKSSlurmPrometheusGrafanaAWSGCPAzure