How to use Prometheus to efficiently detect anomalies at scale | Grafana Labs
Grafana Labs
Grafana에서 PromQL을 이용해서 이상 탐지를 하는 과정입니다.
추세를 따르는 이동 평균선을 만들어서 변화하는 메트릭에서 대역을 벗어나느 메트릭을 이상상황으로 탐지하기 위해, 즉 메트릭은 증가하고 줄어들기 마련인데 값을 기준으로 하면 변화에 유연하게 대처하지 못하기 때문에 변화의 범위를 만들고 매트릭이 크게 달라져서 범위를 벗어나면 문제있는 상황이라고 판단하고 알림을 주기 위한 방법을 적용했습니다.
다양한 시도를 해보았지만 너무 극단적인 스파이크는 제대로 탐지를 못하기도 하고 실제로 이상한 메트릭 변화인데 예상 범위가 너무 크게 잡혀서 문제 상황을 오히려 정상이라고 판정하는 문제를 개선해 나가면서 제대로 탐지할 수 있도록 PromQL Anomaly Detection Framework를 만들어서 공개했습니다.
이는 Datadog에는 이미 있는 기능이지만 PromQL을 이용해서 Grafana에서 할 수 있다는 점이 매력적인 부분입니다.
https://grafana.com/blog/2024/10/03/how-to-use-prometheus-to-efficiently-detect-anomalies-at-scale/
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 27일 오전 8:25
개
... 더 보기전
... 더 보기태초에 모든 동물은 바다에서 살았다. 바다가 동물이 살기 좋은 환경이었던 것이다. 그런데, 동물 사이에 먹이 사슬이 형성되었고, 힘이 없는 동물들은 척박한 곳으로 밀려났다. 그곳이 바로 강이다. 처음에는 강에서 살기 힘들었지만, 성공적으로 적응하는 동물들이 생겨났고, 그래서 강에도 생태계가 형성되었다.
... 더 보기이
... 더 보기1. "최고의 경지에 오른 사람의 노하우나 디테일은 말로 설명하기가 어려워요. 어깨너머로만 배울 수 있어요. 그리고 그 작은 차이가 완성도를 판가름하죠.