together

Staff Engineer, Distributed Storage and HPC & AI Infrastructure

인프라·DevOps

AI 요약

Together AI의 대규모 AI 인프라를 위한 스토리지 엔지니어 포지션으로, 멀티페타바이트 규모의 고성능 저장소 시스템과 Kubernetes 기반 스토리지 플랫폼을 설계·운영합니다. WekaFS, Ceph, Lustre 등 분산 스토리지와 RDMA/InfiniBand 네트워크 최적화, 비용 절감, 멀티테넌시, 자동화, 관측성까지 폭넓게 담당하는 시니어급 역할입니다.

주요 업무

멀티페타바이트 AI/ML 스토리지 시스템 설계 및 운영, WekaFS/Ceph/Lustre 등 기술 통합, 용량 계획 및 30~50% 비용 최적화, RDMA/InfiniBand/400GbE 네트워크 및 NVMe-oF/iSCSI 최적화, Kubernetes 스토리지 오퍼레이터/컨트롤러 및 셀프서비스 플랫폼 구축, GPU 노드당 10~50GB/s 데이터 경로·캐시·프리패치·모델 가중치 배포 최적화, 모니터링/알림/SLO/DR/백업/chaos engineering 구현, ML/SRE 팀 협업 및 문서화·포스트모템·오픈소스 기여.

자격 요건

필수: 8년 이상 스토리지 엔지니어링 경험, 3년 이상 멀티페타바이트 규모 분산 스토리지 운영 경험, GPU/HPC 클러스터용 고성능 스토리지 구축·운영 경험, Kubernetes 및 클라우드 네이티브 스토리지 실무 경험, Go와 Python 기반 프로덕션 코드 작성 역량, Computer Science/Engineering 또는 동등 경력. 우대: WekaFS, Lustre, GPFS, BeeGFS 등 병렬 파일시스템 경험, S3/MinIO/Ceph/R2 오브젝트 스토리지 최적화 경험, CSI drivers/StatefulSets/PersistentVolumes/storage operators/custom controllers 경험, RDMA/InfiniBand 및 100GbE/400GbE 네트워크 지식, Terraform/Ansible/Helm/GitOps(ArgoCD), ext4/xfs/LVM/NVMe/RAID, Prometheus/Grafana/Thanos, GDS, NVMe-oF, Velero/Restic, fio/iperf3/iostat/blktrace, 암호화/보안/컴플라이언스 경험.

기술 스택

WekaFSCephLustreKubernetesGoPythonRDMAInfiniBand400GbENVMe-oFiSCSIHelmTerraformAnsibleGitOpsArgoCDext4xfsLVMNVMeRAIDPrometheusGrafanaThanosCSIStatefulSetsPersistentVolumescontroller-runtimekubebuilderVeleroResticfioiperf3iostatblktraceS3MinIOR2GPFSBeeGFSGDS

AI 점수 20none

지원하기

AI 요약

주요 업무

자격 요건

기술 스택

together의 다른 공고

알림