
krafton
[AI Research Div.] Senior MLOps Engineer (8년 이상)
정규직(풀타임)대면근무인프라·DevOpsAI·머신러닝
AI 요약
KRAFTON AI Service 본부의 MLSys & Ops 팀에서 대규모 GPU 클러스터와 Kubernetes 기반 ML/GPU 플랫폼을 설계·구축·운영할 시니어 엔지니어를 채용합니다. GPU 인프라 고도화, ML 플랫폼 운영 안정화, 자원 효율화, 관측성/자동화, GPU 운영 전략 수립이 핵심입니다.
주요 업무
B300 125노드 기반 GPU infrastructure 운영 안정화·성능 개선·자원 효율화·운영 자동화, Kubernetes 기반 ML/GPU 플랫폼의 스케줄링·멀티테넌시·워크로드 격리·쿼터·관측성·장애 대응 체계 설계·구축·운영, 학습/추론 워크로드 특성을 바탕으로 GPU 활용률·대기 시간·처리량·비용 효율 개선, GPU capacity planning 및 사용률 분석을 통한 추가 구매·클라우드 병행·직접 구축·외부 인프라 활용 전략 제안, 재현 가능한 ML 플랫폼 운영 체계 고도화 및 여러 팀 요구사항 조율
자격 요건
AI/ML 학습 또는 추론 워크로드가 동작하는 대규모 GPU 클러스터 또는 Kubernetes 기반 ML 플랫폼 설계·구축·운영 경험이 있는 분, Kubernetes 기반 ML/GPU 플랫폼의 스케줄링·멀티테넌시·워크로드 격리·쿼터·관측성·장애 대응 체계 개선 경험이 있는 분, GPU 활용률 분석·리소스 할당·스케줄링·우선순위·비용/성능 최적화 경험이 있는 분, ML 워크플로우 전반을 이해하고 공통 ML 플랫폼을 운영·고도화한 경험이 있는 분, IaC·GitOps·CI/CD·관측성 체계로 재현 가능한 운영 표준을 만들어본 분, 장애/성능 이슈를 근본 원인 수준에서 해결한 경험이 있는 분, 연구/개발/서비스 조직과 협업해 요구사항 정리 및 기술 대안 제안 경험이 있는 분, 생성형 AI·LLM 도구·코드 어시스턴트 등 AI 도구를 실무에 활용해본 분, 해외 출장에 결격 사유가 없는 분
기술 스택
KubernetesGPUML 플랫폼GPU 클러스터IaCGitOpsCI/CD관측성NVIDIA GPU OperatorDCGMMIG/MPSRun:aiSlurmKueueVolcanoKServeTritonRay ServeKubeflowArgo WorkflowsLinuxcgroupsNUMANCCLRDMAInfiniBandRoCECephMinIO
krafton의 다른 공고
[AI Transformation Dept.] Sr. AI Data Pipeline Specialist (7년 이상)
데이터, 인프라·DevOps기간제(계약직)[Risingwings] UIUX
Tools Programmer / Programmeur-euse Outils
개발, AI·머신러닝정규직(풀타임)[Studio Support Div.] Tech Ops Lead (10년 이상)
개발기간제(계약직)[AI Transformation Dept.] Sr. AI Transformation Specialist (FDE) (7년 이상)
개발, AI·머신러닝, 제품·기획·디자인, 경영지원기간제(계약직)[PUBG STUDIOS] PM (5년 이상)
제품·기획·디자인정규직(풀타임)[OVERDARE] Senior Content Pipeline Engineer (Unreal)
개발정규직(풀타임)Senior Publishing Producer
제품·기획·디자인정규직(풀타임)