기술적 문제는 누구도 피할 수 없습니다

한 번이라도 서버가 다운되어 당황했던 적이 있으신가요? 특히 예상치 못한 문제가 발생했을 때 어떻게 대처할지 명확하지 않다면 더 혼란스러울 수밖에 없습니다. 오픈 소스와 커뮤니티의 도움으로 운영되는 Lichess는 최근 10시간 동안의 서버 중단이라는 역대 최장의 장애를 경험했습니다. 포스트 모템 글을 통해서 장애의 원인, 대응 과정, 그리고 재발 방지를 위한 계획을 투명하게 설명하며, 개발자와 관리자들에게 유용한 교훈을 다루고 있습니다.


1. 발생 배경

  • 문제 발생 시각: 2024년 9월 12일 14:54 UTC, 핵심 서버인 'Manta'에서 네트워크 연결이 갑작스레 끊김.

  • 원인: OVH 데이터 센터의 물리적 네트워크 하드웨어 문제로 확인.

    • 초기 점검 시에는 네트워크 문제가 간헐적으로 해결되는 것처럼 보였으나, 이후 네트워크 커넥터가 완전히 손상됨.

    • OVH 기술자들이 데이터 센터를 방문해 직접 하드웨어를 교체하는 작업이 필요했음.

  • 복잡성 추가: 네트워크 문제 해결 후에도 시스템이 정상 작동하지 않아, 여러 번의 추가 복구 시도가 이루어짐.


2. 대응 과정

  • 즉각적 복구 시도: Lichess의 창립자 Thibault와 핵심 관리자 Lucas가 즉각적인 원격 복구 작업을 시도.

    • Manta 서버가 다운되자, 중계 및 게임 데이터를 다른 서버로 옮겨 서비스 유지를 시도.

  • 백업 서비스 가동: 장애 상황에서도 체스 올림피아드 경기 중계는 백업 시스템에서 지속적으로 진행.

    • 그러나 일반 사용자의 게임 및 일부 기능은 제한될 수밖에 없었음.

  • 커뮤니티와 소통: Lichess는 실시간으로 장애 상황을 투명하게 공유하며, 커뮤니티의 신뢰를 유지하려 노력.

    • SNS 및 공지를 통해 상황 업데이트 제공.

  • 최종 해결: OVH 데이터 센터 기술자가 손상된 하드웨어를 교체하고 네트워크 문제를 복구한 뒤 정상 운영이 가능해짐.


3. 장애 후 계획

  • 상세 원인 조사: OVH와 협력해 네트워크 하드웨어 결함의 원인을 분석 중.

  • 재발 방지 대책:

    • 다중 페일세이프(fail-safe) 옵션 추가 검토.

    • 네트워크 문제 발생 시 자동으로 다른 서버로 트래픽을 전환하는 기능 강화.

  • 운영 구조 개선: 대부분의 팀원이 자원봉사로 일하고 있으므로, 자원 관리와 추가 인프라에 대한 효율적인 계획 수립 필요.


  1. 추가 FAQ와 커뮤니티 반응

  • 레이트 점수 복구 문제:

    • 서버 장애로 인해 종료된 게임의 레이팅 점수 복구는 불가능.

    • 하지만 대부분의 경우 사용자는 몇 차례의 게임을 통해 자신의 적정 레이팅으로 자연 복구 가능.

  • 흑/백 색상 불균형 문제:

    • 최근 업데이트된 기능으로 인해 흑백 배정이 균형적이지 않은 문제가 발생.

    • 이는 서버 다운과는 별개이며, 개선 중.


커뮤니티의 반응

  • 많은 사용자가 Lichess의 투명하고 신속한 대응에 감사의 뜻을 전함.

  • 장애 동안 발생한 불편에도 불구하고 Lichess의 기술적 도전과 커뮤니티 중심의 운영 방식을 높이 평가.



https://lichess.org/@/Lichess/blog/post-mortem-of-our-longest-downtime/XAgG7jbd

Post-Mortem of our Longest Downtime

lichess.org

Post-Mortem of our Longest Downtime

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 12월 6일 오후 3:15

댓글 0

    함께 읽은 게시물


    구현패턴으로 DB사용비용을 10배줄이기

    ... 더 보기

    kopring-reactive-labs/Docs/eng/08_bulkprocessor.md at main · psmon/kopring-reactive-labs

    GitHub

    kopring-reactive-labs/Docs/eng/08_bulkprocessor.md at main · psmon/kopring-reactive-labs

     • 

    댓글 1 • 저장 31 • 조회 2,536


    제가 리드하고 있는 조직(당근마켓 커뮤니티실)에서 백엔드 엔지니어를 채용 중이에요.


    커뮤니티실에는 동네 이웃들의 이야기와 정보를 공유하는 동네생활팀, 이웃 간의 취미와 관심사를 연결하는 모임팀, 그리고 아파트 단지 생활을 더 편리하고 즐겁게 만들어 줄 단지팀이 있어요. 지금 내 동네에서 일어나고 있는 일들을 더 쉽게 즐기고 공유할 방법들을 찾는 일이라면 무엇이든 도전하여 실행에 옮겨요. 만드는 사람이 불편할수록 쓰는 사람은 편하다는 믿음으로 도전적인 문제를 풀어나갈 분과 함께하고자 해요.

    ... 더 보기

    조회 307


    이력서 팁: 문제를 해결한 경험, 이렇게 써봐요!

    ... 더 보기

    Whatever - 인정받는 메이커들의 왓에버 과외

    Whatever

    Whatever - 인정받는 메이커들의 왓에버 과외

     • 

    저장 13 • 조회 924


    무너지고 있는 프론트엔드, 백엔드 직군의 경계에 대한 고찰

    AI 기술이 우리 일상과 산업 전반에 스며들면서 소프트웨어 개발 환경 역시 큰 변화의 물결을 맞이하고 있다. 특히 코딩을 돕는 AI 에이전트의 등장은 개발 생산성에 대한 큰 변화를 만들고 있다. 나 역시 이러한 변화를 체감하며, 나에게 익숙한 소프트웨어 개발의 대표적인 두 축인 프론트엔드와 백엔드 영역에서 AI 기술이 미치는 영향과 그로 인해 변화하는 소프트웨어 엔지니어의 역할에 대해 개인적인 생각을 정리해 본다.

    ... 더 보기

     • 

    저장 37 • 조회 4,755


    왜 내 개발 프로젝트는 포트폴리오에 적기 부끄러울까

    ... 더 보기

    사용자가 공유한 콘텐츠

    page.stibee.com

    사용자가 공유한 콘텐츠