Jobs
rebellions 로고

rebellions

Software

개발AI·머신러닝인프라·DevOps

AI 요약

최신 LLM 중심의 모델을 자사 NPU 하드웨어에서 고성능·저지연으로 구동시키기 위한 런타임 소프트웨어 엔지니어를 찾습니다. 컴파일러·드라이버·그래프 실행기와 통합되는 RBLN 런타임 모듈 설계·구현, PyTorch 네이티브 실행 지원 및 torch.compile 통합, vLLM 확장, 다중 NPU 분산 추론 최적화, 프로파일러 개발 및 성능 튜닝 등을 담당합니다.

주요 업무

RBLN 런타임 모듈 설계·구현(그래프 실행기·런타임 API 연동), PyTorch 네이티브 실행 및 torch.compile 통합 지원 개발, 사용자용 성능 프로파일러 설계·개발, vLLM 확장하여 NPU 상에서의 추론 성능 향상(메모리 관리·병렬화·동적 배칭 등), 다중 NPU 분산 추론 및 집단 통신(CCL) 최적화, 벤치마킹/프로파일링을 통한 성능 평가 및 최적화, ML 엔지니어·인프라 팀과 협업하여 추론 서비스 배포·스케일링.

자격 요건

컴퓨터공학/전기공학 등 관련 학사 이상, C++ 및 Python 숙련, 딥러닝 기초 및 Transformer/LLM 구조 이해, LLM 서빙 프레임워크(vLLM, TensorRT-LLM 등) 경험, 텐서 병렬화·KV 캐시 최적화·메모리 효율 실행 등 모델 최적화 기법 이해, 컴파일러·런타임·드라이버·펌웨어 관련 지식, 하드웨어 가속(GPU/NPU/TPU) 이해 및 메모리 관리, 고성능 추론 환경 디버깅·프로파일링 능력, 멀티스레딩·병렬프로그래밍 및 분산 환경 배포 경험 우대.

기술 스택

C++PythonPyTorchtorch.compilevLLMTensorRT-LLMTensorRTRBLN SDK컴파일러/런타임/드라이버NPU/GPU/TPU 하드웨어 가속멀티스레딩/병렬프로그래밍분산추론CCL(collective communication)성능 프로파일링/디버깅메모리 최적화/텐서 병렬화
AI 점수 95core

rebellions의 다른 공고

알림

알림이 없습니다