Product-Focused Reliability for SRE
sre.google
SRE라고 부르는 Site Reliability Engineer는 구글에서 만든 역할입니다. 보통 사이트의 안정성을 책임지기 위해 만들었지만 10여년이 지난 시점에서 최종 사용자의 경험을 개선하는데는 한계를 느껴서 이를 개선하는 과정을 설명한 글입니다.
Google에서는 SRE가 인프라와 서비스에 집중하는 대신 제품과 최종 사용자의 요구사항 지원에 집중하고 있다고 합니다.
이룰 위해 엔지니어 뿐 아니라 관리자와 디자이너 등 이해관계자의 참여를 유도하고 제품의 목적에 따라 우선순위를 정하고 제품의 SLO를 축정하기 위해 클라이언트 SLO나 e2e SLO를 도입해서 제품의 SLO로 제품의 신뢰성을 관리하고 있습니다.
Google이 이 접근방법을 통해 사용자와 비즈니스에 가장 중요한 곳에 자원을 집중하게 만들어주었다고 합니다.
SRE의 역할이 너무 확대되는게 아닌가 싶으면서도 또 인프라 레벨로만 보고 있는 경우 모든 수치가 다 정상임에도 실제 사용자에게 전달되는 가치는 충분치 않거나 오히려 저하되는 경우도 볼 수 있기 때문에 제품을 본다는 것은 중요한 핵심 가치에 전달한다는 생각이 듭니다. 그럼에도 SRE가 이 일을 하기 가장 좋은 위치에 있었는가 하면 좀 고민이 되기도 합니다.
https://sre.google/resources/practices-and-processes/product-focused-reliability-for-sre/
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 3월 17일 오전 10:49