Community

카카오의 장애사태(?)와 DR정책

10/15 오후에 발생한 SKCC 데이터센터 화재로 인한 카카오 관련서비스가 대부분 정상화되었지만, 아직도 다음카페와 같은 일부서비스는 복구중인거 같습니다. 카카오의 인프라 상세 구성 내용을 알 수는 없지만, 이번 장애를 보면 DR관련 정책이나 구성에 이슈가 있는거 같습니다. 즉, DR이 제대로 구성이 안되어 있거나, 구성은되어 있으나 제대로 동작이 안되는거 같습니다. 보통 DR(disaster recovery)구성은 Mirror / Hot / Warm / Cold 형태중에 하나 또는 이중으로 구성하게 됩니다. * 미러 사이트(Mirror Site)는 프러덕션 환경과 동일하게 구성하는 것으로, RTO(Recovery Time Objective)가 0이거나 수분 이내에 복구되는 기준입니다. 그래서, 데이터 복제뿐만 아니라 네트워크 이중화, 스토리지 이중화, 메모리 복제 등을 포함하여 실시간으로 바로 서비스가 복구 되는 구성입니다. 그래서, 서비스가 이루어지는 데이터 센터가 장애나면 미러 데이터 센터로 대체 서비스를 하는 구성입니다. 그러나, 현실적으로 실시간 트래픽이 많은 카카오같은 서비스를 미러러 구성한다는 것은 엄청난 작업이 될 것이고, 이러한 구성을 위한 CDP솔루션과 네트워 트래픽등의 비용이 만만치 않기에 일반적으로는 이상적이지만 현실적으로 쉽지는 않습니다. * 핫 사이트(Hot Site)는 장애 발생시 4시간이내에 서비스가 복구되는 구성형태로 이 역시도 실시간 복구를 위한 구성형태입니다. 보통 실시간 DR구성합니다라고 하면 핫사이트 기준이 일반적입니다. * 웜 사이트(Warm Site)는 주기적인 백업을 진행하지만 RTO기준으로 수일 이내를 의미하기에 실제 DR보다는 백업에 가깝다고 보시면 됩니다. * 콜드 사이트는(Cold Site)는 장애 발생시 새로운 시스템 환경을 구성할 수 있는 공간(데이터센터 또는 전산실 등)과 UPS와 전원등의 시설이 구비된 형태입니다. RTO기준으로 수주에서 1개월정도의 기간내 복구를 하는 형태로 볼 수 있습니다. 앞서 설명드린대로, 가장 좋은 DR과 백업방안으로 가장 이상적인건 미러사이트입니다. 그러나, 국민 메신저로 불리는 카카오톡의 경우 특히, 실시간 메시지와 트래픽등이 많기에 실시간 백업을 하려면 굉장히 많은 트랜잭션과 성능이 요구되는 장비와 시설이 필요합니다. 그만큼의 투자비용이 필요하다는 얘기이기도 합니다. 다만, 이번 같은 사태(?)를 보면 꼭 필요해보이는데, 결국 회사의 운영진 또는 이사회등에서 비즈니스 연속성 계획을 얼마나 중요하게 생각하느냐에 따라 투자가 이루어질 수 있을거 같습니다. 또한, 카카오페이지, 카카오맵, 카카오택시, 다음, 브런치, 티스토리 등 연계 또는 카톡로그인 이용하기 때문에 그 영향도가 더 크게 느껴지는거 같습니다. 이번 이슈를 계기로 퍼블릭 클라우드 업체들의 가치는 더 올라갈거 같은 생각도 듭니다.

알림

알림이 없습니다