Jobs
hyperconnect 로고

hyperconnect

Senior Machine Learning Software Engineer (ML Platform)

정규직(풀타임)대면근무개발AI·머신러닝인프라·DevOps

AI 요약

하이퍼커넥트 AI Lab의 ML Platform 팀에서 ML 프로덕션 전반의 자동화·안정화와 조직의 연구 개발 생산성 극대화를 담당할 ML Platform(MLOps/ML 인프라) 엔지니어를 채용합니다. 클라우드 기반 MLOps 컴포넌트·서빙 플랫폼(ArgoCD, Triton 등) 개발, Slurm 기반 고성능 GPU 클러스터 설계·운영, 모델 성능·비용 최적화(분산학습, 양자화, TensorRT 등), 모바일 온디바이스 추론 엔진 개발 및 개발자 포탈/SDK/CLI 등 내부 도구 개발을 수행합니다.

주요 업무

클라우드 기반 ML Ops 인프라 및 도구 개발·운영(모델 재학습/평가/배포 자동화, AI Flywheel 구성), ArgoCD·Argo Workflows·NVIDIA Triton 기반 서빙 플랫폼 및 학습 워크플로우 제공, 데이터 파이프라인 설계·운영, 개발자 포탈·SDK·CLI 도구 개발, Slurm 기반 HPC GPU 클러스터 설계·구축·운영(InfiniBand 등 고속 인터커넥트, 스케줄링·파티션·우선순위 관리), IaC(Ansible, Terraform)로 설정 형상관리, Prometheus/Grafana 연동 모니터링 및 장애복구 자동화, 분산 학습(FSDP, DeepSpeed)·모델 컴파일(TensorRT, ONNX)·양자화(INT8/FP16) 등 성능·비용 최적화, 동적 배치 및 오토스케일링(KEDA) 구현, AWS Inferentia 등 가속기 활용 및 비용 최적화, 모바일 온디바이스 추론 엔진(TFLite, PyTorch Mobile) SDK 개발·최적화 및 테스트 자동화, 조직 생산성 지표 정의·모니터링·병목 개선

자격 요건

소프트웨어(백엔드, 데이터 엔지니어링, 분산 시스템 등) 설계·구현·운영 5년 이상 경험, 운영체제·네트워크·시스템 아키텍처·자료구조·알고리즘 등 CS 기본지식 보유, Java(Kotlin), Python, Golang, JavaScript, Swift, C++, Rust 중 두 개 이상 언어에 대한 깊은 이해, 다양한 스택에 대한 적응력, AWS/GCP/Azure 등 퍼블릭 클라우드 설계·구축·운영 경험, Kubernetes·Docker 등의 컨테이너 기술 이해 및 운영 경험, ML/AI 및 MLOps 생태계에 대한 기본 이해와 관심, ML Engineer/Data Scientist 등 유관부서와의 원활한 커뮤니케이션 능력, 영어(청취·회화) 및 한국어 의사소통 가능

기술 스택

ArgoCDArgo WorkflowsNVIDIA TritonKServeKFServingTensorFlowPyTorchTFLitePyTorch MobileTensorRTONNX RuntimeFSDPDeepSpeedINT8FP16QuantizationDynamic BatchingKEDAAWS InferentiaSlurmInfiniBandLustreNFSAnsibleTerraformPrometheusGrafanaKubernetesDockerEKSGKEKubeflowMLflowMLflowML 모델 서빙 플랫폼GitHub ActionsCI/CDSparkAirflowSDK/CLI 개발JavaKotlinPythonGolangJavaScriptSwiftC++Rust
AI 점수 95ops

hyperconnect의 다른 공고

알림

알림이 없습니다