기술적 문제는 누구도 피할 수 없습니다

한 번이라도 서버가 다운되어 당황했던 적이 있으신가요? 특히 예상치 못한 문제가 발생했을 때 어떻게 대처할지 명확하지 않다면 더 혼란스러울 수밖에 없습니다. 오픈 소스와 커뮤니티의 도움으로 운영되는 Lichess는 최근 10시간 동안의 서버 중단이라는 역대 최장의 장애를 경험했습니다. 포스트 모템 글을 통해서 장애의 원인, 대응 과정, 그리고 재발 방지를 위한 계획을 투명하게 설명하며, 개발자와 관리자들에게 유용한 교훈을 다루고 있습니다.


1. 발생 배경

  • 문제 발생 시각: 2024년 9월 12일 14:54 UTC, 핵심 서버인 'Manta'에서 네트워크 연결이 갑작스레 끊김.

  • 원인: OVH 데이터 센터의 물리적 네트워크 하드웨어 문제로 확인.

    • 초기 점검 시에는 네트워크 문제가 간헐적으로 해결되는 것처럼 보였으나, 이후 네트워크 커넥터가 완전히 손상됨.

    • OVH 기술자들이 데이터 센터를 방문해 직접 하드웨어를 교체하는 작업이 필요했음.

  • 복잡성 추가: 네트워크 문제 해결 후에도 시스템이 정상 작동하지 않아, 여러 번의 추가 복구 시도가 이루어짐.


2. 대응 과정

  • 즉각적 복구 시도: Lichess의 창립자 Thibault와 핵심 관리자 Lucas가 즉각적인 원격 복구 작업을 시도.

    • Manta 서버가 다운되자, 중계 및 게임 데이터를 다른 서버로 옮겨 서비스 유지를 시도.

  • 백업 서비스 가동: 장애 상황에서도 체스 올림피아드 경기 중계는 백업 시스템에서 지속적으로 진행.

    • 그러나 일반 사용자의 게임 및 일부 기능은 제한될 수밖에 없었음.

  • 커뮤니티와 소통: Lichess는 실시간으로 장애 상황을 투명하게 공유하며, 커뮤니티의 신뢰를 유지하려 노력.

    • SNS 및 공지를 통해 상황 업데이트 제공.

  • 최종 해결: OVH 데이터 센터 기술자가 손상된 하드웨어를 교체하고 네트워크 문제를 복구한 뒤 정상 운영이 가능해짐.


3. 장애 후 계획

  • 상세 원인 조사: OVH와 협력해 네트워크 하드웨어 결함의 원인을 분석 중.

  • 재발 방지 대책:

    • 다중 페일세이프(fail-safe) 옵션 추가 검토.

    • 네트워크 문제 발생 시 자동으로 다른 서버로 트래픽을 전환하는 기능 강화.

  • 운영 구조 개선: 대부분의 팀원이 자원봉사로 일하고 있으므로, 자원 관리와 추가 인프라에 대한 효율적인 계획 수립 필요.


  1. 추가 FAQ와 커뮤니티 반응

  • 레이트 점수 복구 문제:

    • 서버 장애로 인해 종료된 게임의 레이팅 점수 복구는 불가능.

    • 하지만 대부분의 경우 사용자는 몇 차례의 게임을 통해 자신의 적정 레이팅으로 자연 복구 가능.

  • 흑/백 색상 불균형 문제:

    • 최근 업데이트된 기능으로 인해 흑백 배정이 균형적이지 않은 문제가 발생.

    • 이는 서버 다운과는 별개이며, 개선 중.


커뮤니티의 반응

  • 많은 사용자가 Lichess의 투명하고 신속한 대응에 감사의 뜻을 전함.

  • 장애 동안 발생한 불편에도 불구하고 Lichess의 기술적 도전과 커뮤니티 중심의 운영 방식을 높이 평가.



https://lichess.org/@/Lichess/blog/post-mortem-of-our-longest-downtime/XAgG7jbd

Post-Mortem of our Longest Downtime

lichess.org

Post-Mortem of our Longest Downtime

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 12월 6일 오후 3:15

댓글 0