databricks

Staff Software Engineer - GenAI Performance and Kernel

개발AI·머신러닝하드웨어·임베디드연구·R&D

AI 요약

Databricks에서 GenAI 추론 스택의 핵심인 고성능 GPU 커널을 설계하고 최적화할 Staff 소프트웨어 엔지니어를 채용합니다. 하드웨어 효율성과 범용성 사이의 균형을 맞추며, 최첨단 추론 성능을 구현하고 저수준 성능 엔지니어링을 주도하는 역할을 수행합니다.

주요 업무

- 다양한 하드웨어 백엔드(GPU, 가속기)에 최적화된 핵심 컴퓨팅 커널(Attention, MLP, Softmax, Layernorm 등) 설계, 구현 및 유지보수 - 커널 레벨 성능 개선 로드맵 주도(벡터화, 양자화, 메모리 재사용, 스케줄링, 오토 튜닝 등) - 커널 최적화 결과물을 상위 레벨 ML 시스템과 통합 - 성능 저하 및 수치 오류 감지를 위한 프로파일링, 계측 및 검증 도구 구축 - 추론 병목 현상(메모리 대역폭, 캐시 경합, 커널 런치 오버헤드 등)에 대한 근본 원인 분석 - 커널 재사용 및 유지보수를 위한 코딩 패턴 및 프레임워크 수립 - 시스템 아키텍처 결정에 참여하여 커널 개선 효율성 극대화 - 동료 엔지니어 멘토링 및 코드 리뷰 수행

자격 요건

- 컴퓨터 과학 또는 관련 분야 학사/석사/박사 학위 - ML 워크로드를 위한 컴퓨팅 커널(CUDA, Triton, OpenCL, LLVM IR, 어셈블리 등) 작성 및 튜닝에 대한 심도 있는 실무 경험 - GPU/가속기 아키텍처(Warp 구조, 메모리 계층, Tensor Cores, 스케줄링, SM occupancy 등)에 대한 강력한 지식 - 고급 최적화 기술(Tiling, Blocking, Software Pipelining, Vectorization, Fusion, Loop transformations 등) 경험 - ML 전용 커널 라이브러리(cuBLAS, cuDNN, CUTLASS, oneDNN 등) 또는 오픈 커널 숙련도 - 강력한 디버깅 및 프로파일링 기술(Nsight, NVProf, perf, vtune 등) - 수치 안정성, 혼합 정밀도(Mixed Precision), 양자화 및 오류 전파에 대한 이해 및 추론 시스템 통합 경험 - (우대) 시스템/ML 성능 관련 학회(MLSys, ASPLOS, ISCA, PPoPP 등) 논문 발표 경험 - (우대) FPGA 또는 맞춤형 가속기 경험, 모델 압축 및 Sparsity 기술 경험

기술 스택

CUDATritonOpenCLLLVM IRAssemblyGPUcuBLAScuDNNCUTLASSoneDNNNsightNVProfperfvtune

AI 점수 98core

지원하기

Staff Software Engineer - GenAI Performance and Kernel

AI 요약

주요 업무

자격 요건

기술 스택

databricks의 다른 공고

알림