
together
Junior Technical Program Manager — Infrastructure Operations
인프라·DevOps제품·기획·디자인
AI 요약
Together AI에서 대규모 GPU 플릿(Fleet)의 안정적인 운영과 관리를 담당할 Junior TPM을 채용합니다. 본 역할은 단순한 일정 조율이나 상태 보고에 그치지 않고, 장애 노드의 수명 주기 관리부터 신규 데이터센터 구축 프로젝트 리드, GPU 활용도 최적화까지 인프라 운영 전반의 복잡한 문제를 주도적으로 해결하는 고도의 기술적 프로젝트 관리 직무입니다.
주요 업무
- 장애 발생부터 수리, 반환, 재통합에 이르는 엔드투엔드 노드 수명 주기 관리 (티켓팅, 내부 툴링, 상태 머신 관리 포함)
- 노드 복구 작업을 신속하게 추진하여 핸드오프 과정에서의 소유권 공백 제거
- 신규 데이터센터 구축 프로젝트 일정 관리 및 내외부 이해관계자 조율
- 플릿 전반의 GPU 활용도 손실 진단 및 엔지니어링 리드와의 협업을 통한 해결
- 효율성 격차를 시각화하고 개선하기 위한 대시보드 및 추적 프로세스 구축
- 프로세스 개선 및 가벼운 자동화를 통한 운영 워크플로우의 지속적 개선
- 외부 데이터센터 제공업체와의 관계 구축 및 유지
자격 요건
- TPM 역할에 대한 사전 경험 (엔지니어링, 운영 또는 기타 기술 직무에서 TPM으로 전환한 경우도 포함)
- 프로그램 엔드투엔드 소유, 교차 기능 해결 주도, 외부 의존성 관리 경험 필수
- 기술적 배경 또는 고도의 기술적 환경에서의 경험 (인프라 엔지니어와 의미 있는 소통이 가능한 수준)
- 모호한 상황에서도 빠르게 움직이는 주도적인 실행력(Bias for action)
- 빠르고 역동적인 환경에서의 회복탄력성 및 적응력
- 여러 워크스트림을 관리하고 의존성을 추적할 수 있는 강력한 조직적 직관
- 운영 문제를 깊이 파고들면서도 전체적인 그림을 놓치지 않는 거시적 관점 보유 능력
기술 스택
GPUs
together의 다른 공고
Head of Hyperscaler Partnerships
영업Software Engineer(Amsterdam)
개발Product Manager, AI Infrastructure
제품·기획·디자인Research Intern RL & Post-Training Systems, Turbo (Fall 2026)
연구·R&D, AI·머신러닝Workplace Coordinator
경영지원, 현장운영Senior Software Engineer(Amsterdam)
개발, 보안Research Intern, Model Shaping (Fall 2026)
AI·머신러닝, 연구·R&DFrontier Agents Intern (Fall 2026)
AI·머신러닝, 연구·R&D