
cerebras
Performance Engineer
AI 요약
Cerebras Systems는 GPU 대비 56배 큰 세계 최대 AI 칩을 개발하는 회사로, 단일 칩으로 수십 개의 GPU 성능을 제공하며 AI 학습 및 추론 속도를 혁신하고 있습니다. 이번 채용은 Runtime 팀의 Performance Engineer 포지션으로, x86 아키텍처 기반의 AI 가속기 Runtime 소프트웨어 드라이버의 CPU 및 메모리 서브시스템 최적화, 데이터 이동 및 처리 알고리즘 개발, 고급 CPU 기능 활용, 성능 프로파일링 및 OS 오버헤드 감소 등의 업무를 수행합니다. AI/ML 개발자 커뮤니티와의 협업 및 차세대 AI 아키텍처 설계에도 기여하게 됩니다. 컴퓨터 과학, 공학 관련 학사 이상 학위와 5년 이상의 성능 엔지니어링 경험, C/C++ 숙련도, 분산 시스템 및 컴파일러 기술에 대한 이해가 요구됩니다.
주요 업무
CPU 및 메모리 서브시스템 최적화 (Runtime 소프트웨어 드라이버)
효율적인 데이터 이동, 로컬 데이터 처리, 작업 제출 및 동기화 알고리즘 개발 및 개선
AVX 명령어, 프리페치 메커니즘, 캐시 최적화 등 고급 CPU 기능 활용을 통한 워크로드 최적화
AMD uprof와 같은 도구를 사용한 성능 프로파일링 및 특성화, OS 레벨 오버헤드 감소
차세대 AI 아키텍처 및 소프트웨어 스택 설계에 대한 영향력 행사 (고급 CPU 기능 통합 및 시스템 성능 영향 분석)
AI 및 ML 개발자 커뮤니티와의 협업 및 문제 해결
아키텍처, 연구, 제품 관리 등 내부 팀과의 협업
자격 요건
BS, MS, 또는 PhD 학위 (컴퓨터 과학, 컴퓨터 공학 또는 관련 분야)
5년 이상의 성능 엔지니어링 관련 경험 (알고리즘 및 소프트웨어 설계 최적화)
C/C++에 대한 높은 숙련도
Python 또는 기타 스크립트 언어에 대한 친숙함
메모리 서브시스템 최적화 및 시스템 레벨 성능 튜닝 경험
분산 시스템 경험 (우대)
컴파일러 기술 (LLVM, MLIR 등) 및 PyTorch 등 ML 프레임워크에 대한 이해 (우대)
기술 스택
C/C++Pythonx86 아키텍처AVXAMD uprofLLVMMLIRPyTorch