IT 서비스의 어려움

판교 IDC의 화재로인한 네이버 서비스 일부, 카카오 서비스, SK 계열사 서비스들의 중단사태가 주말을 뒤덮는 사태가 벌어졌다. 인명 피해는 없었던 것으로 보았고, 화재가 더 크게 번지기 전에 IDC에서는 해당 화재로부터 인접한 곳들의 전력을 중단 시켰다. 결과적으로 원인은 화재지만 서버들의 중단은 전력 공급 중단이다. 그럼, 왜 서비스 불능의 문제가 될까? 1. IDC 마다 가용할 수 있는 네트워크 대역폭이 다른 문제 2. IDC에 각 고객사에서 필요로하는 규모의 서버 규모의 부재 3. DR 센터 부재 4. 서비스의 Site 레벨 (mirror site, hot site, cold site, warm site)의 부재 5. 재난 + 인재 카카오의 경우 대다수의 임대용 IDC에 입주하여 서비스를 하고 있다. AWS를 사용하는 배민이나, 쿠팡, 넥슨등 여타 다른 회사와는 다른 방식인 것이다. 물론, 카카오의 경우에도 k8s를 비롯한 수평 확장이 가능한 layer를 서비스 내부적으로는 사용하고 있다. 결과적으로 AWS를 쓴다고 해도, 여러 리전에 대한 이중화가 필요로 하다. 예전에도 배민 장애랑 같은 이치다. AWS 장애가 서비스 불능으로 빠지게 만들기 때문이다. https://www.inews24.com/view/1449096 https://zdnet.co.kr/view/?no=20181122113510 결과적으로 카카오와 같은 다중 대규모 서비스의 운용은 막대한 비용이다. 자체 IDC 구축 + DR, 이중화 혹은 삼중화에 달하는 IDC 간 유발 되는 문제점들은 또 다른 숙제가 된다. 오히려, 카카오가 당면한 숙제들을 앞으로는 좀 더 나은 방향으로 해결하고, 공유 해줄 수 있는 좋은 배움이 되지 않을까? 기사를 보면, 카카오가 백업 기본은 안지켰다. 이중화를 하지 않았다고 하는데, 이중화는 되어 있을 것이다. 추측상으로 카카오의 모든 서비스가 업계에서 말하는 mirror site 레벨, Hot site 레벨이 아니였을 것이다. 일부는 되어 있더라도, 한쪽으로 트래픽이 몰리니 서버의 과부하가 문제가 됐을 가능성도 크다. 메인 IDC의 다운은 생각보다 큰 장애다. 자체 데이터 센터를 구축하고 운영하는 일은 막대한 비용이다. 카카오가 사용하는 판교 IDC의 서버수가 3만 2천여대이다. 그 모든 서버를 이중화 하기란 비용이 크다. 카카오톡과 연계되는 수 많은 서비스들을 Hot site 레벨로 만드는 것은 굉장히 어려움이 크다. 회사는 막대한 비용을 처리해야 될 것이며, 특정 DC가 무너졌을때 대비한 DR 센터의 케파 역시 평상시보다 2-3배 달하는 가용성을 확보 해야 된다. 이 부분은 결국 돈과 연관 된다. 카카오는 앞으로 어떤 방식으로 이 문제를 해결하고, 대응해 나갈지 앞으로 박수 쳐주면 될 것 같다. 문제는 개발자들만의 고통으로 끝나면 너무 아쉬울 것 같다. 결과적으로 모든 돈과 관련한 의사결정은 대표이사로부터 나온다. 얼마나 큰 결단을 할 것인지? 얼마나 크게 재발 방지를 위한 대책을 마련할 것인지 궁금해진다. 비판은 옳지만, 비난은 옳지 못하다. "이미 소 잃고 외양간 고치냐고 할 수 있지만, 소 한 번 잃고도 안고치면 절대 소를 못키운다"는 드라마의 대사가 생각난다. 어쨌거나, 고치는게 중요하다. 물은 쏟아졌으니 잘 담기만 하면 된다. 서비스 이용자들은 비판을 할 수 있다. 그게 사용자다. 그리고 선택에 따라 서비스 이주를 할 수도 있을 것이다. 이게 서비스의 생과 사 같기도 하다.

IT 서비스의 어려움

알림