intel

Inference Optimization Engineer (local / edge runtime)

정규직(풀타임)대면혼합근무AI·머신러닝개발

AI 요약

Intel에서 로컬/엣지 환경용 LLM 추론 엔진을 고성능으로 최적화하는 소프트웨어 엔지니어 채용. llama.cpp, vLLM 등의 추론 성능을 latency/throughput/memory 관점에서 개선하고, 양자화 및 CPU/GPU 최적화를 수행합니다.

주요 업무

로컬/엣지 하드웨어에서 추론 성능 프로파일링 및 최적화, KV cache/continuous batching/scheduling 튜닝, GGUF/AWQ/GPTQ 양자화 전략 수립 및 품질 검증, CPU 오버헤드 및 엔진 시작/로딩/라이프사이클 개선, 하드웨어별 벤치마크 수행 및 결과 공개, 오픈소스 추론 엔진 패치 기여

자격 요건

CS/EE/Math 등 STEM 관련 학사/석사, 소프트웨어 개발 경력 5년 이상, C++ 및/또는 Python 숙련, LLM inference 동작 원리 이해, CPU/GPU 성능 프로파일링 및 최적화 경험, Linux/빌드 시스템/저수준 디버깅 역량

기술 스택

C++Pythonllama.cppvLLMggmlVulkanCUDASYCLMetalLinuxGGUFAWQGPTQ

AI 점수 95core

지원하기

Inference Optimization Engineer (local / edge runtime)

AI 요약

주요 업무

자격 요건

기술 스택

intel의 다른 공고

알림