
anthropic
Performance Engineer - GPU
개발AI·머신러닝인프라·DevOps하드웨어·임베디드연구·R&D
AI 요약
Anthropic에서 차세대 AI 모델인 Claude의 기반이 되는 GPU 성능 및 시스템 엔지니어링 혁신을 주도할 GPU 성능 엔지니어를 채용합니다. GPU 활용도를 극대화하고 대규모 분산 시스템 아키텍처를 설계하여 AI 인프라의 한계를 넓히는 역할을 수행합니다.
주요 업무
차세대 하드웨어 아키텍처를 위한 어텐션 메커니즘 및 알고리즘 공동 설계. 신규 양자화 포맷 및 혼합 정밀도 기술을 위한 커스텀 커널 개발. 다중 노드 GPU 클러스터를 위한 분산 통신 전략 설계. 프론티어 언어 모델의 엔드투엔드 훈련 및 추론 파이프라인 최적화. GPU 활용도 예측 및 최적화를 위한 성능 모델링 프레임워크 구축. 하드웨어 벤더와 협력하여 미래 가속기 및 소프트웨어 스택 설계 참여.
자격 요건
학사 학위 이상(또는 그에 준하는 경험). 대규모 GPU 프로그래밍 및 최적화에 대한 깊은 경험. 하드웨어 인터페이스부터 고수준 ML 프레임워크까지 복잡한 시스템을 다루는 능력. 협업 기반의 문제 해결 및 페어 프로그래밍 선호. (우대사항) GPU 커널 개발(CUDA, Triton, CUTLASS, Flash Attention), ML 컴파일러 및 프레임워크(PyTorch/JAX internals, XLA), 성능 엔지니어링(Nsight 프로파일링, 커널 퓨전), 분산 시스템(NCCL, NVLink, 모델 병렬화), 저정밀도 연산(INT8/FP8 양자화), 대규모 훈련 인프라 구축 경험.
기술 스택
GPUCUDATritonCUTLASSFlash AttentionPyTorchJAXXLANsightNCCLNVLinkINT8FP8Distributed Systems