
together
Site Reliability Engineer (Amsterdam)신규
인프라·DevOps개발
AI 요약
Together AI에서 대규모 AI 인프라의 안정성과 확장성을 책임질 7년 이상의 경력을 가진 Site Reliability Engineer(SRE)를 채용합니다. Ansible, Terraform, Kubernetes 전문가로서 자동화 및 모니터링 시스템을 구축하고 운영 프로세스를 설계하는 역할을 수행합니다.
주요 업무
가용성 관련 사고 대응을 위한 온콜(PagerDuty) 로테이션 참여, Ansible, Terraform, Kubernetes를 활용한 대규모 인프라 구축 및 운영, 서비스 품질 보장을 위한 모니터링 시스템 구축, 배포 및 업그레이드 등 운영 프로세스 설계 및 구현, 서비스 전반의 프로덕션 이슈 디버깅, 신뢰성·성능·가용성 관점의 제품 아키텍처 개선 사항 발굴, Together AI 인프라 확장 계획 수립
자격 요건
7년 이상의 전문 SRE 또는 관련 분야 경력, 컴퓨터 과학 또는 관련 분야 학사 학위(또는 그에 준하는 실무 경력), Ansible(roles, playbooks), Terraform, Kubernetes에 대한 전문가 수준의 지식, 프로그래밍 및 스크립팅 언어 숙련도, 모니터링 및 관측성(Observability) 실무 경험, 클라우드 서비스에 대한 고급 지식, 다양한 이해관계자 및 전문가와 협업할 수 있는 능력
기술 스택
AnsibleTerraformKubernetesPagerDutyCloud Services
together의 다른 공고
Head of Hyperscaler Partnerships
영업Software Engineer(Amsterdam)
개발Product Manager, AI Infrastructure
제품·기획·디자인Research Intern RL & Post-Training Systems, Turbo (Fall 2026)
연구·R&D, AI·머신러닝Workplace Coordinator
경영지원, 현장운영Senior Software Engineer(Amsterdam)
개발, 보안Research Intern, Model Shaping (Fall 2026)
AI·머신러닝, 연구·R&DResearch Intern, Inference (Fall 2026)
AI·머신러닝, 연구·R&D, 개발, 인프라·DevOps