최근에 회사에서 SRE 팀에서 일상적으로 수행하던 오퍼레이션 업무를 자동화하는 프로젝트에 참여하고 있어요. 오늘 일요일이라 팟캐스트 듣고, 유툽 발표 영상들 보고 팀에 공유했더니, zero tou
최근에 회사에서 SRE 팀에서 일상적으로 수행하던 오퍼레이션 업무를 자동화하는 프로젝트에 참여하고 있어요. 오늘 일요일이라 팟캐스트 듣고, 유툽 발표 영상들 보고 팀에 공유했더니, zero touch production에 대한 글을 보고 팀 동료가 https://sre.google/workbook/eliminating-toil/ 글을 추천해줬어요. 구글이 발행한(?) SRE Workbook의 내용인데, toil (수고로운일, 인프라 스터디할 때 일상적으로 하는 수동작업들을 이렇게 표현할 것 같단 이야기를 했어요.) 에 대한 이야기에요. 구글의 SRE책을 보면 SRE팀이 절반은 toil을 하고, 나머지 절반은 toil을 개선할 수 있는 프로젝트를 진행할 수 있게 발란스를 조절한다고 하는 이야기가 있었는데, 워크북의 내용 중 이 부분이 좋았어요. ``` It’s important to note that eliminating toil isn’t always the best solution. As mentioned throughout this chapter, you should consider the measurable costs associated with identifying, designing, and implementing processes or automation solutions around toil. Once you identify toil, it's crucial to determine when toil reduction makes sense, using metrics, return on investment (ROI) analysis, risk assessment, and iterative development. ``` toil을 줄이는 일에 시간을 투여할 때는, 먼저 toil을 식별하고, 메트릭화하고, ROI (아마도 이를 개선할 때 드는 비용과 효과), 리스크를 분석하고, 지속적으로 개발해 운영해 나가는게 중요하다는 뜻으로 이해했어요. SRE 라는 직군으로 일한지는 몇년 시간이 지났는데도, 아직 SRE 가 무엇인지 시원하게 설명하지는 못하는 것 같아요. 관련된 글이나 영상, 베스트 프랙티스 들을 참고하면서 계속 내가 하는 일을 정의하고, 구현, 실천해나갈 수 있으면 좋겠단 생각을 했어요.