< 트위터는 왜 모니터링 시스템을 다시 만들었 | 커리어리

< 트위터는 왜 모니터링 시스템을 다시 만들었나? > 트위터는 왜 두 번이나 모니터링 시스템을 직접 개발하였을까요? 대규모 트래픽을 가진 모니터링 서비스를 클라우드에서 구축할 때, 인사이트를 얻을 수 있습니다. 트위터 엔지니어가 거친 시행착오 이야기를 들어보시고, 여러분 서비스를 구축할 때 도움이 되는 인사이트를 얻으시길 바랍니다. <목차> * Twitter 초창기 모니터링 시스템 아키텍처 * 트위터는 왜 모니터링 시스템을 다시 만들어야 했나? - 급격하게 늘어나는 수집 메트릭 정보 - 알럿과 대시보드의 불일치 - Alert Zone의 이중화 * 더 나은 트위터 모니터링 솔루션 2.0 만들기 - 알럿과 대시보드와의 통합 - 설정 언어와 대시보드 변경 - 알럿 신뢰성 확보 문제 * Twitter 모니터링 시스템 2.0 아키텍처 * 클라우드 존의 상태를 체크하여, 다른 Zone으로 이주(Rebalancing)하는 알럿 시스템 구축 - 이중화보다는 이사 - 알럿을 빠르게 전송하기 위해 RuleSet들을 Shard로 나누어 전송. * Human Reasoning - 고객이 솔루션을 사용할 때, 합리적으로 판단하고 추론할 수 있게 하는 것이 중요합니다. - 사용자의 참여를 강화시켜라 (Empower Human) * 맺음 클라우드 상황에서 서비스의 안정성을 유지하기 위해서 모니터링은 필수입니다. - 모니터팅의 핵심인 알럿의 높은 성능을 유지하기 위해 zone의 상태를 보고 이사를 갈 수 있는 시스템을 만들기 - 내부 시스템이지만 1.0 사용자를 인터뷰하면서 2.0 개선안을 도출해내는 점진적 개선하는 모습들 - 알럿과 알럿이 발생한 UI 통합 그리고 이 컨셉들이 향후 IMQA 알럿 및 이벤트 기획 시 많이 도움이 될 듯 합니다. 이 내용인 모니터링 컨퍼러스인 monitorama의 Building Twitter Next-Gen Alerting System 내용과 여러 블로그 글들을 참고하여 요약한 것입니다. - Observability at Twitter: technical overview, part I - Observability at Twitter: technical overview, part II 오역 및 부족한 부분이 있을 수도 있으니 support@imqa.io로 연락해주시면 수정하도록 하겠습니다. 이 주제와 연관된 성능 이슈/ 모니터링에 도움이 될만한 글을 추천해 드립니다. - DataDog은 어떻게 가장 큰 APM 회사가 되었나?(https://blog.imqa.io/datadog_become_number_one/) - Netflix는 어떻게 수백만 개의 디바이스를 모니터링 하나?(https://blog.imqa.io/how-netflix-monitors-millions-devices-robert-armstrong/) - 실전 Web App 부하테스트 1편(https://blog.imqa.io/load_test1/) - 실전 Web App 부하테스트 2편(https://blog.imqa.io/loadtesting2/) 모바일 앱 모니터링에 관심있으신 분은 IMQA 홈페이지(http://imqa.io/mpm) 또는 영상(https://www.youtube.com/watch?v=XMdpxpHBESQ&ab_channel=IMQAONYCOM)을 통해 확인해주시기 바랍니

트위터는 왜 모니터링 시스템을 다시 만들었나?

IMQA 기술 블로그

2021년 4월 28일 오전 5:57

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!