Github의 장애 부검 분석
지난 주말 카카오 서버 장애로 온 국민이 불편함을 겪었습니다. 같은 업계에 종사하는 한 사람의 개발자로서, 그 분들이 지난 주말부터 정말 엄청난 스트레스 속에서 장애를 해결하실 모습에 존경과 감사를 표합니다. 이미 일어난 일은 빠르게 수습하고, 앞으로 이러한 장애가 일어나지 않도록 사후 부검을 하는 일이 무엇보다 중요할 것으로 보여집니다. 관련해서 한 가지 사례를 공유합니다. 2018년 10월 Github에서 약 24시간 정도 장애가 났었고, Github 팀에서 이를 이후에 자사 블로그에 분석한 글을 공유했습니다. 물론 쉬운 결정은 아닙니다. 부끄럽기도 할 것입니다. 하지만, 이러한 공유 문화를 가진 조직이라면 오히려 저는 많은 엔지니어들이 카카오를 더 높게 평가할 것이라는 생각도 듭니다.