¿Es ML realmente útil para reducir el ruido de alerta? Estudiamos con el ejemplo de un método.



Antecedentes



Durante los últimos años, el mercado de los sistemas de monitorización se ha visto agitado por el acrónimo AIOps. Todos los proveedores han comenzado a buscar el uso de inteligencia artificial en sus sistemas complejos y costosos. Los términos "análisis de la causa raíz", "correlación", "herramientas de aprendizaje automático", "detección de anomalías", "predicción de incidentes", "reducción de ruido" se establecen completa y probablemente para siempre en los materiales de marketing y sitios web de varios sistemas de monitoreo.



Como sabemos, los folletos publicitarios son una cosa, pero la ingeniería de la vida cotidiana es otra. Probablemente, muchos se han enfrentado a una situación en la que las promesas de los vendedores de determinadas innovaciones tecnológicas chocan, como el Titanic con un iceberg, con la práctica de implementación, especialmente en el complejo entorno de TI de las grandes empresas. Por lo tanto, inicialmente miré con gran escepticismo y no compartí la emoción en torno a este tema. Especialmente cuando existen soluciones de hormigón armado como Zabbix, Prometheus y Elastic. Pero HYIP HYIP, escepticismo, escepticismo, y seguimos siendo ingenieros y deberíamos comprobar y estudiar todo en la práctica, y no plantearnos la cuestión de creer / no creer en el "botón mágico" de proveedores eminentes y nuevas empresas prometedoras. Y ahora, después de otra presentación del integrador y promesas de mucho dinero "el cielo en nuestra tierra pecadora de ingenieros de operaciones", reunimos a un pequeño grupo de iniciativa,que decidió "sentir" de qué se trata esta magia de la inteligencia artificial y el aprendizaje automático en nuestra práctica. Así nacieron materiales e incluso un pequeño proyecto de mascota que me gustaría compartir con ustedes.





— , . . - . : -. — “ ”, .. , “ ”, . — “ ”.



ML- . , . - , .



. HTTP- . “”, . , downdetector , , , ;)







2020-10-14 14:00 +03:00 38 ( ), .. [2020-10-12 23:00:00 +03:00 – 2020-10-14 14:00 +03:00]. : 3612.



(threshold), , 0, 1, 179 . (. . 1: . UTC. ,

).



Figura 1. 1. . UTC. , — .



, 3- , 44 (. . 2). 4 . “0110010011101010…”, , , % ( 1 ), - .



Figura 2. 2. 3- . , — .



“” : - , . - , . , AI/ML.



ML?



, , Data Scientist . , , -, , 3- :



  1. . — , .
  2. , , , .
  3. , , "" . .. " " , , .


DetectIidSpike ML.NET. : . , . "" , . .

DetectIidSpike :



  • confidence — [0, 100]. , , , , ;
  • pvalueHistoryLength — p-value. - " ", .


, . HTTP- , .. . . - . , .. 5 : . , , .. . (, ), "", .



“”. , , , (), «» ( ). 5 . , websockets , . , ( kubernetes ).



(confidence: 95, pvalueHistoryLength: 5), 36 . , , .. . , 24 . (, ).



Figura:  3. 3. (confidence: 95, pvalueHistoryLength: 5) , —



(. 3), , . , , ( ).



. 4 pvalueHistoryLength=12 confidence: 98. : 14 .



Figura:  4. 4. (confidence: 98, pvalueHistoryLength: 12)





, DetectIidSpike (24 44) 3 , 7,5 (24 179) . , , . , ML . , :)



P.S.: ML, -, . .



PPS: A continuación daré algunas capturas de pantalla más de nuestro proyecto mascota con los datos reales de las comprobaciones realizadas y las anomalías generadas. Puede ver cuán eficiente o ineficaz (para quién cómo) funciona el algoritmo (círculo amarillo - anomalías en el intervalo seleccionado).



Algunas capturas de pantalla más interesantes








All Articles