AWS 대규모 장애가 불러온 도미노 현상 - 테크레시피
테크레시피
미국시간으로 25일 아마존 AWS클라우드 서비스 중 하나인 미국 동부 지역의 실시간 데이터 수집,처리,분석하는 키네시스 서비스의 장애가 발생했다. 이 장애로 로봇청소기 업체 아이로봇, 보안카메라 업체 링, 핀테크 대출기업 어펌, 소프트웨어 기업인 어도비와 오토데스크, 스트리밍 업체 로쿠, 암호화폐 거래소 코인베이스, 사진 공유업체 플리커, 기업평가 업체 글래스도어, 대형 유통업체 타깃, 미국 언론사 워싱턴포스트와 월스트리트 저널, 시카고트리뷴, 그리고, 뉴욕시 지하철 현황사이트 등 수많은 업체가 특정 서비스가 중단되거나 문제가 발생했다. 참고로, 키네시스 서비스의 SLA는 1년에 8.76시간 장애를 허용하는 99.9%를 보장한다. 무엇보다 글로벌 퍼블릭 클라우드의 45%를 차지하는 아마존 AWS 서비스이기에 이런 장애건이 두드러져 보이는 것 또한 사실이다. 클라우드 서비스를 사용한다하더라도 최소 2개이상의 멀티 리즌과 가용 영역을 구성하여야 특정 리즌 장애가 난다하더라도 서비스 연속성과 가용성을 가져갈 수 있다. 물론, 비용은 다소 올라가겠지만. 그럼에두 불구하고, 안정성은 비용과 비례한다고 볼 수 있기에 장애로 발생하는 손실액이 운영비 보다 더 크다면 OPEX를 투자하는 것이 바람직할 것이다.
2020년 11월 28일 오전 11:00