Identificación de anomalías en la arquitectura de microservicios: descripción general de las herramientas DevOps y SRE

Hola. Hoy nos gustaría hablar sobre la detección de anomalías en un entorno de microservicios. Esta publicación es un breve resumen de nuestro informe de 40 minutos que hicimos en la conferencia en línea DevOps Live 2020 y, para no escribir una lectura larga, decidimos enfocarnos en una descripción general de las herramientas para detectar anomalías en la distribución de valores métricos para automatizar el monitoreo de microservicios, que cualquier equipo puede utilizar rápidamente. ...







El tema de la detección de anomalías es ahora muy relevante, ya que con la transición a microservicios para SRE y DevOps se ha incrementado significativamente la prioridad de tareas relacionadas con convertir alertas en una señal significativa, reducir MTTD y simplificar la configuración de alertas en la monitorización de entornos distribuidos.













, , , .

"" .







, , .







?

?







, :







  • latency ;
  • ;
  • .


"" , - , .







, :







  • ;
  • , ;
  • «» , .


, , , ?







:







  • c ;
  • APM ;
  • as a Service.


.









, Python R.







Prometheus , time series .

recording rules, , .







, , , ( " ").







, , z- (z-score) — , , .







http_requests_total, :







#    
- record: job:http_requests:rate5m
  expr: sum by (app) (rate(http_requests_total[5m]))

      
      





:







# average -   
- record: job:http_requests:rate5m:avg_over_time_1w
expr: avg_over_time(job:http_requests:rate5m[1w])

# stddev -  
- record: job:http_requests:rate5m:stddev_over_time_1w
expr: stddev_over_time(job:http_requests:rate5m[1w])

# z-
(job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w
) /  job:http_requests:rate5m:stddev_over_time_1w
      
      





Anomalía simple







( , latency) — , , .







— .







, .







.







, — z-.







Predicción estacional







recording rules Prometheus .







Prometheus — PAD



Prometheus Anomaly Detector (PAD), Red Hat, , .







PAD Prometeheus , PAD recording rules, , , Prophet, .







Arquitectura PAD







PAD Grafana .







Arquitectura PAD







, proof of concept.







APM



(Application Performance Monitoring) AIOps — , , .







, .







New Relic



New Relic baseline ( ) — , EUM, .







— baseline, ( , , ).

, , , , baseline.







, .







New Relic: establecimiento de la política de alerta en caso de desviación de la línea de base







2020 — New Relic Applied Intelligence (AI).







New Relic AI KPI .







/ .







New Relic Applied Intelligence: detección de anomalías en métricas en múltiples aplicaciones







AppDynamics



AppDynamics APM baseline KPI- .







baseline , , (, ) , baseline.







AppDynamics: configuración de línea de base







, , health rule .







, baseline health rule.







AppDynamics: política de establecimiento de alertas en caso de desviación de la línea de base







Dynatrace



Dynatrace " " , .







Dynatrace - señal de disminución del tráfico







:







  • KPI


.







Dynatrace - configuración







Dynatrace - configuración







Instana



Instana " " 230 "" , KPI .







latecy, error rate, traffic ( ).







Instana: una lista de reglas que utilizan el algoritmo EDM para detectar anomalías







E-Divisive with Medians (EDM).







Instana: la regla ha detectado una anomalía en la métrica







, , baseline.

"" "" , .







baseline — .







EUM.







Instana: constructor de políticas de alertas basado en métricas de referencia de EUM







as a Service



APM , Prometheus , , SaaS .







Azure Metric Advisor



Microsoft — Azure Metric Advisor .







, , e-commerce.

(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .







Interfaz de Azure Metric Advisor







Anodot



— Prometheues -.







-, SRE .







e-commerce, gaming .







Anodot







AnomalyIO



, , , , InfluxDB.







, InfluxDB, , .







Anodot









  • .
  • – , .
  • Prometheus — .
  • APM AIOps, .


.








All Articles