서비스 장애 이후, 조직은 정말로 배우고 있을까?
서비스 장애가 발생하면 대부분 조직은 이렇게 정리합니다. “트래픽이 많아서 장애가 발생했습니다.” “서버가 순간적으로 다운되었습니다.” 하지만 이런 설명은 사실 원인 분석(Root Cause Analysis)이라기보다 현상 설명에 가깝습니다. 좋은 조직은 장애를 복구하는 것에서 끝내지 않습니다. 장애 이후에 Postmortem 문서를 작성하고, 그 과정에서 조직이 학습할 수 있는 구조를 만듭니다. Postmortem의 목적은 단순한 회고가 아닙니다. 왜 이런 일이 발생했는지 구조적으로 이해하고 어떤 조건이 겹쳐 사고가 만들어졌는지 파악하며 같은 일이 다시 발생하지 않도록 시스템을 개선하는 것 문제는 많은 조직에서 Postmortem이 학습 문서가 아니라 책임 추궁 문서로 변질된다는 점입니다. 이렇게 되면 사람들은 문제를 숨기기 시작하고, 조직은 같은 사고를 반복하게 됩니다. 이번 글에서는 다음 내용을 정리했습니다. Postmortem과 RCA의 차이 좋은 사후 분석 문서가 갖춰야 할 구조 실제 조직에서 사용할 수 있는 작성 프레임워크 서비스를 운영하는 PM, 개발자, 데이터팀 등 제품과 시스템을 운영하는 조직이라면 반드시 한 번쯤 고민해야 할 주제라고 생각합니다. 관심 있으신 분들은 아래 글에서 자세히 확인하실 수 있습니다. https://onemorethink.tistory.com/m/entry/postmortem-rca-writing-guide