Hola. Hoy nos gustaría hablar sobre la detección de anomalías en un entorno de microservicios. Esta publicación es un breve resumen de nuestro informe de 40 minutos que hicimos en la conferencia en línea DevOps Live 2020 y, para no escribir una lectura larga, decidimos enfocarnos en una descripción general de las herramientas para detectar anomalías en la distribución de valores métricos para automatizar el monitoreo de microservicios, que cualquier equipo puede utilizar rápidamente. ...
El tema de la detección de anomalías es ahora muy relevante, ya que con la transición a microservicios para SRE y DevOps se ha incrementado significativamente la prioridad de tareas relacionadas con convertir alertas en una señal significativa, reducir MTTD y simplificar la configuración de alertas en la monitorización de entornos distribuidos.
, , , .
"" .
, , .
?
?
, :
- latency ;
- ;
- .
"" , - , .
, :
- ;
- , ;
- «» , .
, , , ?
:
- c ;
- APM ;
- as a Service.
.
Prometheus , time series .
recording rules, , .
, , , ( " ").
, , z- (z-score) — , , .
http_requests_total, :
# - record: job:http_requests:rate5m expr: sum by (app) (rate(http_requests_total[5m]))
:
# average - - record: job:http_requests:rate5m:avg_over_time_1w expr: avg_over_time(job:http_requests:rate5m[1w]) # stddev - - record: job:http_requests:rate5m:stddev_over_time_1w expr: stddev_over_time(job:http_requests:rate5m[1w]) # z- (job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w ) / job:http_requests:rate5m:stddev_over_time_1w
( , latency) — , , .
— .
, .
.
, — z-.
Prometheus — PAD
Prometheus Anomaly Detector (PAD), Red Hat, , .
PAD Prometeheus , PAD recording rules, , , Prophet, .
PAD Grafana .
, proof of concept.
APM
(Application Performance Monitoring) AIOps — , , .
, .
New Relic
New Relic baseline ( ) — , EUM, .
— baseline, ( , , ).
, , , , baseline.
, .
2020 — New Relic Applied Intelligence (AI).
New Relic AI KPI .
/ .
AppDynamics
AppDynamics APM baseline KPI- .
baseline , , (, ) , baseline.
, , health rule .
, baseline health rule.
Dynatrace
Dynatrace " " , .
:
- KPI
.
Instana
Instana " " 230 "" , KPI .
latecy, error rate, traffic ( ).
E-Divisive with Medians (EDM).
, , baseline.
"" "" , .
baseline — .
EUM.
as a Service
APM , Prometheus , , SaaS .
Azure Metric Advisor
Microsoft — Azure Metric Advisor .
, , e-commerce.
(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .
Anodot
— Prometheues -.
-, SRE .
e-commerce, gaming .
AnomalyIO
, , , , InfluxDB.
, InfluxDB, , .
- .
- – , .
- Prometheus — .
- APM AIOps, .
.