옵저버빌리티 서비스인 Datadog에서 그동안 많은 모니터링 경험을 해보니 error rate보다 brun rate가 더 중요하다고 설명하는 글입니다.


error rate는 보통 서비스가 목표로 하는 SLO에서 1을 뺀 값으로 설정하는데 요청 수나 시간을 기준으로 전체 요청에서 에러가 얼마나 발생하는지를 백분율이나 수치로 잡아서 오류 예산을 잡을 수 있습니다. 여기서 오류 예산이라고 하는 부분은 특정 시간내에 오류를 얼마나 허용할 것인지를 정하는 것을 말하고 일부러 예산 개념을 넣어서 예상을 초과하면 배포를 막는다거나 시스템을 보호하기 위한 조치를 취할 수 있습니다.


burn rate는 SLO에서 오류 예산이 얼마나 빨리 소진되는지를 의미하는 것입니다.


이렇게 보면 이 둘은 거의 같아보일 수 있지만 error rate에는 요청수가 시간대나 기간에 따라 달라진다거나 하는 드으이 변수가 더 많은 반면 burn rate를 사용하면 오류 예산만 고려하여 오류가 높은지 아닌지를 보여줄 수 있기 때문에 더 정확한 상황을 파악할 수 있고 알림도 표준화 할 수 있고 알림 노이즈도 많일 줄일 수 있다고 설명하고 있습니다.


https://www.datadoghq.com/blog/burn-rate-is-better-error-rate/

Burn rate is a better error rate

Datadog

Burn rate is a better error rate

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 25일 오후 4:00

 • 

저장 11조회 2,294

댓글 0