together

Site Reliability Engineer (Amsterdam)신규

인프라·DevOps개발

AI 요약

Together AI에서 대규모 AI 인프라의 안정성과 확장성을 책임질 7년 이상의 경력을 가진 Site Reliability Engineer(SRE)를 채용합니다. Ansible, Terraform, Kubernetes 전문가로서 자동화 및 모니터링 시스템을 구축하고 운영 프로세스를 설계하는 역할을 수행합니다.

주요 업무

가용성 관련 사고 대응을 위한 온콜(PagerDuty) 로테이션 참여, Ansible, Terraform, Kubernetes를 활용한 대규모 인프라 구축 및 운영, 서비스 품질 보장을 위한 모니터링 시스템 구축, 배포 및 업그레이드 등 운영 프로세스 설계 및 구현, 서비스 전반의 프로덕션 이슈 디버깅, 신뢰성·성능·가용성 관점의 제품 아키텍처 개선 사항 발굴, Together AI 인프라 확장 계획 수립

자격 요건

7년 이상의 전문 SRE 또는 관련 분야 경력, 컴퓨터 과학 또는 관련 분야 학사 학위(또는 그에 준하는 실무 경력), Ansible(roles, playbooks), Terraform, Kubernetes에 대한 전문가 수준의 지식, 프로그래밍 및 스크립팅 언어 숙련도, 모니터링 및 관측성(Observability) 실무 경험, 클라우드 서비스에 대한 고급 지식, 다양한 이해관계자 및 전문가와 협업할 수 있는 능력

기술 스택

AnsibleTerraformKubernetesPagerDutyCloud Services

지원하기

Site Reliability Engineer (Amsterdam)신규

AI 요약

주요 업무

자격 요건

기술 스택

together의 다른 공고

알림