< 클라우드 안정성 유지하는 비결, 이제는 ‘SRE’ 이다 >
현재 클라우드(cloud)는 공간기반의 아키텍처로 자리 잡았다. 레거시시스템, 신규시스템, 서비스의 통합이나 고도화에 따른 플랫폼의 확장으로 시스템의 안정성과 신뢰성이 중시되어 기업의 대다수는 클라우드를 도입 했거나 고려하고 있다. 그렇지만 온프라미스 시스템의 클라우드 전환이 결코 간단치 않은 실정이다. 핵심은 구축한 이후의 안팎으로 변화되는 인프라, S/W의 지속적인 통합과 융합은 안정성이 생명인 클라우드 시스템에 있어서는 관리적인 요소의 기술과 운영이다.
시장 변화에 신속하게 대응하기 위한 개발과 운영의 원활한 협업체계, 자동화된 배포기술, 프로세스 전반의 혁신을 진행할 수 있는 클라우드 기술과 클라우드네이티브 경험이 핵심도구로 요구된다. 이제는 SRE(Site Reliability engineering) 방법론이 적용되기 시작했으며, 클라우드네이티브 환경/방식에서 SRE를 설계해 DevOps를 위한 구체적인 가이드를 제공 할 수 있게 됐다.
SRE 기능적 역할에는 어떤 것이 있는지 다음 세 분류로 나열한다.
▲운영팀, 개발팀이 코드 변경 시 인프라, S/W, 애플리케이션을 배포 자동화하여 기간 단축. ▲오픈소스 기반의 모니터링 체계 및 구축, 모니터링구성을 자동화하여 서비스를 안정적으로 지속시킴. ▲개인 및 그룹별 작업에 대한 공유 및 협업을 통한 신속하고 체계적인 대응체계를 구현한다.
위와 같이 업무수행을 위해 클라우드 기능에 대한 운영설계를 할 때, 이제는 SRE를 기준으로 디자인 하며, 서비스 품질개선, 모니터링, 관제, 장애분석, 처리프로세스 등의 방법들을 운영 및 개발팀에 설계기준과 SRE의 세부 Job description을 정의하고 협업사항을 가이드 하는 것으로 시작하게 된다.
다양한 자동화 툴을 활용해 고객상황에 맞는 SRE Service 아키텍처를 구축하고, SRE 적용을 위한 검토와 설계, 그리고 배포 파이프라인 구성, 자동배포, 자동테스트로 플랫폼이 안정화되도록 하고 있어 시장의 반응이 더욱 주목된다.