Accidentes como experiencia # 3. Cómo guardamos nuestro seguimiento durante un accidente en OVH

En este artículo compartiré mi experiencia de cómo el reciente accidente de OVH afectó nuestra infraestructura de monitorización, cómo solucionamos el problema y qué lecciones aprendimos de esto.





Sobre el seguimiento con nosotros

, «» . :





1. Blackbox- . — endpoint’ , . , health page JSON-, , . , — , / .





: HTTP/HTTPS. , , JSON ( status page- ). (, ).





( , OVH).





2. Kubernetes- , . Prometheus + Grafana + Alertmanager, . , (, , Kubernetes Deckhouse), , — (, ).





3. , Kubernetes. , (bare metal) , , . Okmeter ( — - ). OVH.





( , , , .)





, , , — Okmeter. ( Kubernetes-), blackbox- ( , - ).





? ? — ?





«» Dead man’s switch (DMS). , «»:





  • OK, , « », (Prometheus, Okmeter ..) -.





  • , OK , .





  • , , OK , - ERROR . .





, (10 ): (ERROR) DMS.





:





  • — DMS, 3:20 .





  • Okmeter , , . , - . , , (blackbox Kubernetes). .





  • ( 8:14) , , Okmeter , .





, Okmeter. - OVH:





  • SBG-2 — ;





  • SBG-1 — .





, - OVH . , , .





10 , , Okmeter — - .





, :





  1. ;





  2. , ;





  3. .





DevOps-, CTO . , , Okmeter.





, Okmeter . , ? :





Matriz de criticidad de alerta

3 . , , S1 ( ) S9 ( ). S1 — blackbox-, . , Okmeter ( . ). S2, (S3 ..).





S1 S2 Okmeter, , . . 





, Okmeter, . 





Okmeter

: S1-S2

, Okmeter? , — , Okmeter, — , 1 2020 .





:





  1. .





    1. ( ).





    2. .





    3. (, ).





  2. .





  3. .





: S3

S3 : , , .





. , ZooKeeper.





Bash

Okmeter, , . : Ansible- , . 10 . - Bash.





:





  1. shell-, bare metal-. ( ) , Okmeter: , severity, .. , . , .





    , API — flint (flant integration).





  2. Ansible- , , . Ansible- , , , .





  3. , — , .





S1-S2 — S3. ( ) .





3000 .





:





, . :





  , Okmeter , «» , , . 





, : , . : , (DRP) . - , , .





:





  1. , , . , OVH? …





  2. «» Okmeter, : , .. ( ), «» , .





  3. , : . , .





P.S.

:





  • «„- Okmeter “. „“»;





  • « #2. Elasticsearch Kubernetes»;





  • « #1. ClickHouse, ».








All Articles