우리는 다음 소를 잃지 않기 위해서 오늘도 외양간을 고칩니다.

최근 팀에서 장애 인지 및 처리 체계 고도화를 위해 고민하며 여러 레퍼런스를 참고하던 중 '우아한 형제들'에서 작성했던 글을 재미있게 읽어 공유드리고자 합니다. 물론 작성된지 시간은 꽤 지났지만, 많은 분들에게 충분히 유의미하고 도움이 될 것이라고 생각합니다. 글을 읽으며 흥미있게 봤던 단락은, - 장애 복구와 장애 전파를 분리 운영합니다. 현업에서 장애가 발생했을 때(없는게 최고겠지만..)를 생각해보면 개발자들은 장애 복구를 위해 정신없는 경우가 많습니다. 하지만 이럴때 복구담당자가 관련 서비스나 운영팀에 전파까지 고려하는 것은 생각보다 힘든 경우가 많죠. 우아한형제들에서는 이를 명확하게 분리하여 운영하는 것을 이야기하고 있습니다. - 장애 원인 분석: 5whys 특히나 요새는 많은 곳에서 장애 발생 이후 장애 리뷰 및 회고에 대한 프로세스는 많이 진행하고 있는 것 같습니다. (아직 도입된 프로세스가 없다면 꼭! 추천드립니다. 많은 배움과 성장이 있을 것이라 생각합니다.) 이때 어떠한 방법으로, 어떻게 장애에 대해 접근하고 분석할지 고민이 많은데 5whys방법을 이용하면 보다 근본적인 이유에 접근할 수 있을 것이라 생각했습니다. 물론 조직의 특성이나 문화, 장애 케이스에 따라 방법이 달라질 수 있겠지만, 한번쯤은 시도해보면 좋을 것 같습니다. - 장애는 결코 어느 한 사람, 한 조직의 잘못이 아닙니다. 원문의 마지막에 있는 멘트입니다. 장애가 발생하는 것이 '누군가'의 잘못이라고 생각하는 순간 우리는 결국 장애 발생 이후 '성장' 보다는 누군가에게 '비난'을 하거나 '남탓'을 하게 될 수 있습니다. 대표적으로 개발 로직에서의 이슈가 있었다면, 개발한 사람 뿐 아니라 리뷰를 통해 함께 버그를 잡아내지 못한 '모두'의 책임이라고 생각합니다. 모든 서비스, 모든 프로젝트에서 장애는 발생하지 않아야겠지만, 그것보다 중요한 것은 발생한 장애를 '누군가'의 잘못으로 돌리지 않는 것이라고 생각합니다.

우아~한 장애대응 | 우아한형제들 기술블로그

우아한형제들 기술블로그 |

우아~한 장애대응 | 우아한형제들 기술블로그

다음 내용이 궁금하다면?

지금 간편 가입하고 다음 내용을 확인해 보세요!

또는

이미 회원이신가요?

2023년 1월 20일 오전 9:34

 • 

저장 12조회 2,104

댓글 0