deepx

LLM Serving SW Engineer

정규직(풀타임)대면근무개발AI·머신러닝하드웨어·임베디드

AI 요약

온디바이스 AI 반도체 기반의 LLM 서빙 시스템 및 런타임·인퍼런스 엔진을 설계·구현하고 성능 병목을 분석·해결하는 엔지니어 채용 공고입니다. DeepX NPU 등 AI 가속기에서 동작하는 모델 최적화(양자화, 프루닝 등)와 모델 컴파일러/런타임(ONNX, TVM, TensorRT) 경험을 선호합니다. 정규직(풀타임)이며 주 5일 출근 근무 체계입니다.

주요 업무

DeepX NPU 기반의 LLM 서빙 시스템 개발 및 최적화, LLM용 런타임·인퍼런스 엔진 설계·구현, 서빙 성능 분석 및 병목 원인 파악·해결, 모델 컴파일러/런타임 및 하드웨어 가속기와의 연동 및 최적화 작업.

자격 요건

학사 이상(컴퓨터공학 또는 관련 전공), C/C++ 및 Python 개발 경험, LLM 또는 딥러닝 프레임워크(TensorFlow, PyTorch)에 대한 이해, Linux 기반 개발 환경 경험, 컴퓨터 아키텍처 및 병렬처리에 대한 기본 지식. 우대: NPU/GPU 등 AI 가속기 경험, ONNX/TVM/TensorRT 등 모델 컴파일러·런타임 실무 경험, 양자화·프루닝 등 모델 최적화 지식, Mistral/LLaMA/GPT 등 LLM 관련 프로젝트 경험, 스타트업 환경에 빠르게 적응할 의지.

기술 스택

CC++PythonTensorFlowPyTorchLinuxDeepX NPUGPUONNXTVMTensorRT양자화(Quantization)프루닝(Pruning)LLM (Mistral, LLaMA, GPT 등)모델 컴파일러/런타임컴퓨터 아키텍처병렬처리

AI 점수 95core

지원하기

LLM Serving SW Engineer

AI 요약

주요 업무

자격 요건

기술 스택

deepx의 다른 공고

알림