Discutamos el monitoreo

Por cuarto año ahora, he estado organizando lo que comúnmente se llama Observabilidad. Denuncio la experiencia adquirida durante este tiempo en un texto, la comparto con ustedes en forma de reflexión-recomendación y la presento al público. Prácticamente no habrá detalles técnicos: el artículo está escrito deliberadamente de tal manera que lo indicado podría colocarse en casi cualquier pila de tecnología. El caso es que las herramientas irrumpen en tendencias y las dejan a una velocidad increíble, por lo que su elección es tuya. Analicemos el seguimiento.





Acerca del seguimiento en el contexto de las métricas

Si le pregunta al ingeniero técnico promedio con qué está asociado el monitoreo, lo más probable es que le responda: "métricas de aplicación", y esto significará su recopilación y algo de visualización. Además, como ha demostrado mi experiencia, muchos ni siquiera piensan en el lado sórdido de este proceso: en el entendimiento de la mayoría, "simplemente se muestra en Grafana / Kibana / Zabbix / sustituye lo que necesitas".





Esta respuesta, observo, aún no está completa, ya que no todo se limita solo a las métricas. Más precisamente, incluso esto: el monitoreo no se trata solo de recopilar métricas y mostrarlas en un tablero. Y de ahora en adelante, echemos un vistazo más de cerca.





¿De qué está hecho el seguimiento?

Con el tiempo, deduje los siguientes aspectos por mí mismo:





  1. Recopilación de métricas de diversas fuentes: aplicaciones, indicadores de host, parte "de hierro" del sitio; las diferencias en los modelos de tracción y empuje aún no se han abordado, más sobre eso más adelante





  2. ()





  3. , , «» ,









  4. - ML.





, . :





  • - «» - CPU, RAM, , , ; – , .

    , , ; , / K8s-





  • – , , ; , , .

    ( ) «-». – «/ », , ,





  • - – , -.

    – , , (-), , , . , , , –





  • - – , ; -,





Pull VS Push

– ?





Push- – , . ( , ), – , , - .





Pull- – , , . , . – , , , . , – . K8s, , , . – -.





– .





– TSDB (Time-Series DataBase), . , « – – » .





VictoriaMetrics, .





, , :





  1. – , , , . () « /- ».

    , - – Nginx`, Apache`, ; « » «- »,





  2. – , ; drilldown- . , , « ?».

    , Nginx , – , , . , -





  3. – .

    // . – « ?». , – nginx_01 proxy.local,





  4. – , , : - , , .

    , Nginx ; , , «/ /». , ,





  5. – .

    - «». – CPU, RAM, .., . , ; proxy.local,





, , :





El usuario de seguimiento se mueve de arriba hacia abajo, analizando el incidente.
,

:





  • , . , , , , , ,





  • , – , «-» ..





  • . , – - ,





Grafana, , c , -.





, , . , – , , .





, , , . , :





  • – , .

    : « CPU 90% »; , , , -, , -, , .

    , , /// , – ( – , )





  • – /, ; , , uri - ..





  • – , , , ,





  • / , – , ,





, , , :





  • . // , - . , «» -





  • ; , , , , . ( )





  • / , ,





  • , . , , ,





  • – , . , Nginx ( ), , - « »





AlertManager – Prometheus, . « », . - API .





, , ; , .





Este es el primer texto de los tres planeados; luego me gustaría tocar el tema de la tala y su sinergia con el monitoreo, después de lo cual, tal vez, pase a algunos detalles técnicos (no solo en texto seco). Si está interesado en leer sobre esto, por favor escriba los comentarios. Intentemos desensamblar y discutir primero el enfoque general para la recopilación y el almacenamiento centralizado de registros, su función en la evaluación del estado del sitio monitoreado y también abordar la pregunta: "¿es posible separar los registros de las métricas?"








All Articles