
intel
Inference Optimization Engineer (local / edge runtime)
정규직(풀타임)대면혼합근무AI·머신러닝개발
AI 요약
Intel에서 로컬/엣지 환경용 LLM 추론 엔진을 고성능으로 최적화하는 소프트웨어 엔지니어 채용. llama.cpp, vLLM 등의 추론 성능을 latency/throughput/memory 관점에서 개선하고, 양자화 및 CPU/GPU 최적화를 수행합니다.
주요 업무
로컬/엣지 하드웨어에서 추론 성능 프로파일링 및 최적화, KV cache/continuous batching/scheduling 튜닝, GGUF/AWQ/GPTQ 양자화 전략 수립 및 품질 검증, CPU 오버헤드 및 엔진 시작/로딩/라이프사이클 개선, 하드웨어별 벤치마크 수행 및 결과 공개, 오픈소스 추론 엔진 패치 기여
자격 요건
CS/EE/Math 등 STEM 관련 학사/석사, 소프트웨어 개발 경력 5년 이상, C++ 및/또는 Python 숙련, LLM inference 동작 원리 이해, CPU/GPU 성능 프로파일링 및 최적화 경험, Linux/빌드 시스템/저수준 디버깅 역량
기술 스택
C++Pythonllama.cppvLLMggmlVulkanCUDASYCLMetalLinuxGGUFAWQGPTQ
intel의 다른 공고
Mixed Signal IP Verification Engineer
하드웨어·임베디드정규직(풀타임)Manufacturing Technician ( 1 year contract)
하드웨어·임베디드, 현장운영기간제(계약직)Mixed Signal IP Verification Engineer
품질·테스트, 하드웨어·임베디드정규직(풀타임)High speed PHY System Architect
하드웨어·임베디드, 연구·R&D정규직(풀타임)Mechanical Systems and Component Architect
하드웨어·임베디드기간제(계약직)Credit Manager
경영지원정규직(풀타임)Process Integration Development Engineer - Defect Metrology
하드웨어·임베디드, 연구·R&D정규직(풀타임)Sr. Principal Engineer, AI Systems and Solutions
하드웨어·임베디드, 연구·R&D정규직(풀타임)