메르카리에서 올해 초 부터 다양한 주제로 블로그를 연재하고 있는데, 그 중에 좋아서 트윗했던 것들을 정리해보았습니다. https://engineering.mercari.com/en/blog/ent
메르카리에서 올해 초 부터 다양한 주제로 블로그를 연재하고 있는데, 그 중에 좋아서 트윗했던 것들을 정리해보았습니다. https://engineering.mercari.com/en/blog/entry/20220218-dynamic-service-routing-using-istio/ 이 글도 재밌었는데 Istio에서 헤더 매칭으로 Dynamic Routing해서 여러개의 리비전을 운영함. * SRE team is monitoring the original services * QA team is doing testing for a new feature introduced in svcA * DEV team is developing a new feature for svcB https://engineering.mercari.com/blog/entry/20220218-cd149f6298/ 데이터독 메트릭을 HPA External Metric으로 사용하는 예. https://engineering.mercari.com/en/blog/entry/20220221-embedded-sre-at-mercari/ 메르카리는 Embedded SRE라고 해서 프러덕트팀에 SRE팀 인원이 투입되어서 아래와 같은 일을 함. 1. 서비스의 SLI/SLO 를 가시화 (SLO dashboard에 해당 서비스의 SLI/SLO 를 추가하는 일) 2. Istio 가 반영되어 있지 않은 서비스의 Istio 도입 3. GCP GCE(AWS EC2같은 VM) to GKE 마이그레이션 `SRE as practice, not as a dedicated role` 라는 내용이 있어 흥미로웠음. 구체적인 업무에 대한 설명은 https://engineering.mercari.com/blog/entry/20220228-adde8a4e3b/ 글에 있음. 더해서 이런일도 함. 엄청난 체계. * Make sure the service meets the Production Readiness Checklist https://github.com/mercari/production-readiness-checklist * Check and implement data backup and recovery * Ensure the observability of the service * Improve on-call rotation and incident handling * Write playbooks https://github.com/mercari/production-readiness-checklist/blob/master/docs/references/production-readiness-checklist.md 메르카리에서 각 서비스 특성에 따라 Level 을 나누고, 프러덕션 레디 상태를 위해 갖추어야할 조건들을 정리한 문서. 이미 메르카리 인프라 조직 팬이긴 하지만, 이건 특히 멋지다고 생각했다.