
rebellions
Software
개발AI·머신러닝인프라·DevOps
AI 요약
최신 LLM 중심의 모델을 자사 NPU 하드웨어에서 고성능·저지연으로 구동시키기 위한 런타임 소프트웨어 엔지니어를 찾습니다. 컴파일러·드라이버·그래프 실행기와 통합되는 RBLN 런타임 모듈 설계·구현, PyTorch 네이티브 실행 지원 및 torch.compile 통합, vLLM 확장, 다중 NPU 분산 추론 최적화, 프로파일러 개발 및 성능 튜닝 등을 담당합니다.
주요 업무
RBLN 런타임 모듈 설계·구현(그래프 실행기·런타임 API 연동), PyTorch 네이티브 실행 및 torch.compile 통합 지원 개발, 사용자용 성능 프로파일러 설계·개발, vLLM 확장하여 NPU 상에서의 추론 성능 향상(메모리 관리·병렬화·동적 배칭 등), 다중 NPU 분산 추론 및 집단 통신(CCL) 최적화, 벤치마킹/프로파일링을 통한 성능 평가 및 최적화, ML 엔지니어·인프라 팀과 협업하여 추론 서비스 배포·스케일링.
자격 요건
컴퓨터공학/전기공학 등 관련 학사 이상, C++ 및 Python 숙련, 딥러닝 기초 및 Transformer/LLM 구조 이해, LLM 서빙 프레임워크(vLLM, TensorRT-LLM 등) 경험, 텐서 병렬화·KV 캐시 최적화·메모리 효율 실행 등 모델 최적화 기법 이해, 컴파일러·런타임·드라이버·펌웨어 관련 지식, 하드웨어 가속(GPU/NPU/TPU) 이해 및 메모리 관리, 고성능 추론 환경 디버깅·프로파일링 능력, 멀티스레딩·병렬프로그래밍 및 분산 환경 배포 경험 우대.
기술 스택
C++PythonPyTorchtorch.compilevLLMTensorRT-LLMTensorRTRBLN SDK컴파일러/런타임/드라이버NPU/GPU/TPU 하드웨어 가속멀티스레딩/병렬프로그래밍분산추론CCL(collective communication)성능 프로파일링/디버깅메모리 최적화/텐서 병렬화