Jobs
krafton 로고

krafton

[AI Research Div.] Senior MLOps Engineer (8년 이상)

정규직(풀타임)대면근무인프라·DevOpsAI·머신러닝

AI 요약

KRAFTON AI Service 본부의 MLSys & Ops 팀에서 대규모 GPU 클러스터와 Kubernetes 기반 ML/GPU 플랫폼을 설계·구축·운영할 시니어 엔지니어를 채용합니다. GPU 인프라 고도화, ML 플랫폼 운영 안정화, 자원 효율화, 관측성/자동화, GPU 운영 전략 수립이 핵심입니다.

주요 업무

B300 125노드 기반 GPU infrastructure 운영 안정화·성능 개선·자원 효율화·운영 자동화, Kubernetes 기반 ML/GPU 플랫폼의 스케줄링·멀티테넌시·워크로드 격리·쿼터·관측성·장애 대응 체계 설계·구축·운영, 학습/추론 워크로드 특성을 바탕으로 GPU 활용률·대기 시간·처리량·비용 효율 개선, GPU capacity planning 및 사용률 분석을 통한 추가 구매·클라우드 병행·직접 구축·외부 인프라 활용 전략 제안, 재현 가능한 ML 플랫폼 운영 체계 고도화 및 여러 팀 요구사항 조율

자격 요건

AI/ML 학습 또는 추론 워크로드가 동작하는 대규모 GPU 클러스터 또는 Kubernetes 기반 ML 플랫폼 설계·구축·운영 경험이 있는 분, Kubernetes 기반 ML/GPU 플랫폼의 스케줄링·멀티테넌시·워크로드 격리·쿼터·관측성·장애 대응 체계 개선 경험이 있는 분, GPU 활용률 분석·리소스 할당·스케줄링·우선순위·비용/성능 최적화 경험이 있는 분, ML 워크플로우 전반을 이해하고 공통 ML 플랫폼을 운영·고도화한 경험이 있는 분, IaC·GitOps·CI/CD·관측성 체계로 재현 가능한 운영 표준을 만들어본 분, 장애/성능 이슈를 근본 원인 수준에서 해결한 경험이 있는 분, 연구/개발/서비스 조직과 협업해 요구사항 정리 및 기술 대안 제안 경험이 있는 분, 생성형 AI·LLM 도구·코드 어시스턴트 등 AI 도구를 실무에 활용해본 분, 해외 출장에 결격 사유가 없는 분

기술 스택

KubernetesGPUML 플랫폼GPU 클러스터IaCGitOpsCI/CD관측성NVIDIA GPU OperatorDCGMMIG/MPSRun:aiSlurmKueueVolcanoKServeTritonRay ServeKubeflowArgo WorkflowsLinuxcgroupsNUMANCCLRDMAInfiniBandRoCECephMinIO
AI 점수 90core

krafton의 다른 공고

알림

알림이 없습니다