Grafana에서 PromQL을 이용해서 이상 탐지를 하는 과정입니다.


추세를 따르는 이동 평균선을 만들어서 변화하는 메트릭에서 대역을 벗어나느 메트릭을 이상상황으로 탐지하기 위해, 즉 메트릭은 증가하고 줄어들기 마련인데 값을 기준으로 하면 변화에 유연하게 대처하지 못하기 때문에 변화의 범위를 만들고 매트릭이 크게 달라져서 범위를 벗어나면 문제있는 상황이라고 판단하고 알림을 주기 위한 방법을 적용했습니다.


다양한 시도를 해보았지만 너무 극단적인 스파이크는 제대로 탐지를 못하기도 하고 실제로 이상한 메트릭 변화인데 예상 범위가 너무 크게 잡혀서 문제 상황을 오히려 정상이라고 판정하는 문제를 개선해 나가면서 제대로 탐지할 수 있도록 PromQL Anomaly Detection Framework를 만들어서 공개했습니다.


이는 Datadog에는 이미 있는 기능이지만 PromQL을 이용해서 Grafana에서 할 수 있다는 점이 매력적인 부분입니다.


https://grafana.com/blog/2024/10/03/how-to-use-prometheus-to-efficiently-detect-anomalies-at-scale/

How to use Prometheus to efficiently detect anomalies at scale | Grafana Labs

Grafana Labs

How to use Prometheus to efficiently detect anomalies at scale | Grafana Labs

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 10월 27일 오전 8:25

댓글 0