Community

작년 10월에 Roblox에서 73시간 동안 장애났던 상황을 정리한 포스트모템입니다. 시스템을 운영하는 입장에서 73시간이나 서비스가 전면적으로 장애났다는 상황을 상상만해도 끔찍하긴 한데 원인을

작년 10월에 Roblox에서 73시간 동안 장애났던 상황을 정리한 포스트모템입니다. 시스템을 운영하는 입장에서 73시간이나 서비스가 전면적으로 장애났다는 상황을 상상만해도 끔찍하긴 한데 원인을 추측하면서 시도하는 과정이 잘 나와 있어서 재미있게 읽은 글입니다. 작년에 어떤 상황이길래 73시간이나 장애가 났을까 궁금했던 일이라 더욱 그렇기도 했고요. 원인은 HashiCorp의 Consul의 새로운 기능을 키면서 Consul 내부에서 경합 문제와 성능 저하 문제가 발생한 것 때문인데 Consul 내부를 의심할 생각을 못하고 서버를 스케일업하고 장애전 스냅샷으로 복구하는 등 다양하게 시도했지만 실마리를 찾지 못하자 Consul 내부를 보기 시작해서 원인으로 추정되는 문제를 찾고 HashiCorp와 협업해서 해당 문제를 해결해서 장애가 완화되는 것을 확인 후 본격적으로 서비스 복구를 진행했다고 합니다. 추적 과정도 재미있지만 항상 포스트모템에서는 배워야 하는 것이 있어야 하므로 Roblox에서도 텔레매트리가 consul에 의존하고 있어서 consul에 문제가 생기자 모니터링이 어려웠기에 이러한 의존성을 해결하고 Consul에 의존성이 너무 높아서 굳이 Consul을 써야하지 않는 데이터는 다른 스토리로 옮겼다고 하네요. 운영면에선 제일 관심 있는 부분은 서버를 옮기고 캐시서버 복구하는 등의 절차에서 너무 많은 시간이 들었기 때문에 이부분을 자동화하도록 도구와 프로세스를 개발중이라고 하네요.

알림

알림이 없습니다