Cloudflare 제어판 및 분석 서비스 중단 사후 분석

지난 11월 2일 Cloudflare의 서비스가 완전 복구되기 까지 44시간 정도가 걸리는 큰 장애가 발생했습니다.


Cloudflare의 이번 장애는 Cloudflare의 주요 데이터센터 중 하나의 전력이 완전히 나가면서 모든 서버가 내려간게 원인이었고 3개의 데이터센터를 액티브 - 액티브로 운영하면서 고가용성을 제공하고 있었지만 일부 신규 서비스가 고가용성 클러스터 밖에 있는 서비스에 의존하는 부분이 미리 확인되지 못했기에 데이터센터가 내려가면서 서비스에 영향이 생기게 되었습니다.


워낙 큰 장애였기에 장애가 끝나자 마자 포스트모템이 올라왔고 이제는 한국어로도 번역이 되어 있어서 쉽게 읽을 수 있습니다. 데이터센터가 내려가서 이를 복구 하기 위해 노력하면서 복구 시간이 길어질 것 같자 준비된 유럽의 페일오버 센터로 넘어가서 서비스를 복구하다가 데이터 센터의 전기가 돌아오자 팀을 보내서 복구하는 과정의 긴박감을 느낄 수 있는 포스트 모템이라 인상적이었습니다.


흔히들 장애나면 이중화되어 있지 않냐고 쉽게 얘기하기도 하는데 이중화는 상당히 어려운 일이고 이렇게 데이터센터가 통째로 내려가는 일은 테스트해보기도 어렵고 계속 변화하는 시스템에서 의존성을 모두 파악하기도 어렵기 때문에 장애 상황에 비해서는 상당히 잘 대처했다고 생각합니다.


https://blog.cloudflare.com/ko-kr/post-mortem-on-cloudflare-control-plane-and-analytics-outage-ko-kr/

Cloudflare 제어판 및 분석 서비스 중단 사후 분석

The Cloudflare Blog

Cloudflare 제어판 및 분석 서비스 중단 사후 분석

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 11월 24일 오전 4:48

 • 

저장 3조회 1,772

댓글 0

    함께 읽은 게시물

    OpenAI가 발표한 Codex의 핵심은 AI와 함께 진짜 팀으로 일하는 것 같은 경험을 준다는거네요.


    기존의 코딩 어시스턴트는 Agent라는 이름을 붙였어도 결국은 자동완성의 확장에 그치는 것이라, 즉, 나의 뇌를 확장하는 것이라 한계가 좀 명확했는데요.


    ... 더 보기

    차세대 파이썬 패키지 매니저 uv 소개 영상

    h

    ... 더 보기

    이직의 조건

    

    ... 더 보기

    개발자의 장애 공유 문화

    ... 더 보기

    개발자의 장애 공유 문화

    K리그 프로그래머

    개발자의 장애 공유 문화

     • 

    저장 18 • 조회 3,800


    🎯 유튜브에 100번째 코딩 테스트 문제 풀이 영상을 올렸습니다!

    ... 더 보기

    달레의 코딩 테스트

    www.youtube.com

    달레의 코딩 테스트

    샘 알트만: "지금 당신이 o3보다 더 똑똑하다고 생각하세요?"


    ... 더 보기

    샘 알트만: "지금 당신이 o3보다 더 똑똑하다고 생각하세요?" : 오호츠크 리포트

    55check.com

    샘 알트만: "지금 당신이 o3보다 더 똑똑하다고 생각하세요?" : 오호츠크 리포트