Los accidentes más famosos en los centros de datos de diferentes empresas en los últimos años y sus causas





Los centros de datos se están convirtiendo en objetos cada vez más importantes, porque tanto el curso normal del trabajo de muchas empresas grandes y pequeñas como la seguridad de los datos de los usuarios normales dependen de su funcionamiento normal. Un minuto de inactividad de un gran centro de datos puede causar millones de pérdidas a los clientes del operador del centro de datos. Bueno, muchas horas o incluso más, tantos días de inactividad conducen a pérdidas que a veces son imposibles de estimar en absoluto. Debajo del corte: los accidentes más famosos de los últimos tiempos con una descripción de las razones de su ocurrencia.



Incendio en el centro de datos de OVH







En marzo de 2021, uno de los centros de datos de OVH se incendió casi por completo. Este es el mayor accidente de los últimos años, porque OVH es uno de los mayores proveedores de hosting de Europa. El incendio fue tan severo que prácticamente destruyó el centro de datos SBG2. El principal sospechoso es uno de los sistemas de alimentación ininterrumpida, con número de serie interno UPS7. En vísperas del incendio, este sistema estaba en mantenimiento, durante el cual se cambiaron una gran cantidad de componentes. Una vez finalizado el procedimiento, se reinició UPS7 y pareció funcionar con normalidad. Pero pronto hubo un incendio.



Por cierto, los incendios en los centros de datos, especialmente de esta escala, son extremadamente raros. El Uptime Institute realiza un seguimiento de estos casos; según sus representantes, en promedio, los incendios ocurren menos de una vez al año.... En la mayoría de los casos, los incidentes se interrumpieron al comienzo del desarrollo, pero en algunos casos el fuego aún se salió de control.



En el caso de OVH con cortes provocados por los efectos de un incendio en SBG2, se enfrentaron aproximadamente a 3,6 millones de sitios web.



Tras estudiar la situación con OVH, los expertos llegaron a la conclusión de que el siniestro podía deberse a varias causas y que no se trataba solo de un sistema de alimentación ininterrumpida. La escalada del incidente fue facilitada por:



  • -. (Tower design). , . «», , , , .
  • -, , . , , , . .


Esto último es aún más extraño porque ahora hay una gran cantidad de soluciones para mantener la seguridad. Digamos que hay sensores que monitorean los parámetros ambientales y son capaces de trabajar con un UPS. Por ejemplo, el sensor de monitoreo ambiental Eaton EMP002 monitorea la temperatura, la humedad y monitorea el funcionamiento de dispositivos emparejados como detectores de humo o abrepuertas. Además, existen sistemas de seguridad que son capaces de capturar cambios de temperatura en fracciones de grado, monitorear la concentración de monóxido de carbono y otras sustancias. Si se detecta un problema, dichos dispositivos notifican al operador del servicio de soporte técnico y encienden la señal de peligro.



Incendio en el centro de datos de WebNX







En abril de 2021, se produjo un incendio en el centro de datos de Ogden de la empresa estadounidense WebNX. El generador se incendió, después de lo cual el fuego se extendió a las instalaciones adyacentes. Como resultado, hubo un corte de energía completo, el equipo del servidor resultó dañado. Es poco probable que se recuperen algunos de los servidores más gravemente dañados por el fuego.



La situación se salió de control después de que se cortara el suministro de energía a la ciudad, que suministraba energía al centro de datos: se encendieron varios generadores de energía autónomos en el centro de datos, pero uno de ellos tuvo una avería que provocó un incendio .



Los bomberos que llegaron extinguieron el fuego, pero sus acciones provocaron daños por agua en los equipos en las áreas afectadas por el incendio.



Los servidores de la empresa Gorilla Servers también se ubicaron en este centro de datos. Es cierto que el equipo de esta organización no sufrió daños, pero como resultado del corte de energía, los servicios y los sitios de los clientes dejaron de funcionar. El centro de datos se desactivó durante varias horas, y la restauración del funcionamiento de todos los sistemas tomó aproximadamente 20 horas. Las pérdidas del operador del centro de datos en este caso superaron los $ 25 millones.



Fallo del centro de datos bancario TSB



En septiembre de 2018, el banco británico TSB decidió realizar una migración extensa de equipos de TI sin haber probado previamente el nuevo centro de datos. Lo más molesto para la empresa es que el proveedor de servicios de TI Sabis, que fue contratado para realizar la migración, probó todos los centros de datos afectados por la migración, excepto uno. Al mismo tiempo, se ocultó a la dirección el hecho de que no se realizaron las pruebas.



El resultado es deplorable: dos millones de clientes del banco perdieron el acceso a sus cuentas a la vez. El banco tuvo que gastar alrededor de $ 480 millones para eliminar las consecuencias de una interrupción del centro de datos, incluida una tarifa de investigación de incidentes de aproximadamente $ 35 millones.



Incendio en el centro de datos de Telstra en Londres



En agosto de 2020, el centro de datos de Telstra, la empresa de telecomunicaciones más grande de Australia, resultó dañado. Como ocurre con OVH, el problema se debe a un SAI defectuoso. A pesar de que el incendio fue contenido, a diferencia de OVH, el incidente afectó a la mayor parte del área del centro de datos, que es de 11.000 metros cuadrados. Dentro de las instalaciones donde ocurrió el incendio, había alrededor de 1.800 racks de servidores.



Se enviaron cuatro camiones de bomberos y 25 miembros de la tripulación al sitio a la vez. El equipo parece haber funcionado muy bien, ya que el incendio solo pudo dañar seriamente una pequeña parte del almacén. Ninguno de los miembros del personal resultó herido.



Sin embargo, varias docenas de servidores terminaron fuera de línea y su trabajo se restauró solo después de unas pocas horas. En consecuencia, los servicios y sitios de los clientes de Telstra no funcionaron. Las pérdidas totales de la compañía excedieron los $ 10 millones, sin mencionar las pérdidas de reputación.



Fallo del UPS en el centro de datos Equinix LD8



En agosto de 2020, también hubo un problema con la red eléctrica del centro de datos Equinix LD8: allí, después de un corte de energía de la red, el UPS falló allí. No hubo incendio, pero el problema eléctrico no pudo resolverse durante varias horas, por lo que muchos clientes se vieron afectados.



El accidente ocurrió en un centro de datos en los Docklands de Londres, y el personal de soporte pudo comprender la causa del problema casi inmediatamente después de que apareció. Al final resultó que, el UPS apagado desactivó el grupo principal de enrutadores Juniper MX y Cisco LNS. Fue este grupo el que proporcionó el funcionamiento de la mayoría de los equipos del centro de datos.



Después de que se desenergizó el clúster, se cortaron los servicios de las empresas más grandes, los clientes de Equinix. Entre ellos se encuentran las empresas internacionales de telecomunicaciones Epsilon, SiPalto, EX Networks, Fast2Host, ICUK.net y Evoke Telecom. El accidente también afectó el funcionamiento de otros centros de datos.



Como conclusión, diré que estos están lejos de todos los accidentes ocurridos en los últimos años. Pero estos incidentes son probablemente los más reveladores porque podrían haberse evitado. El personal no profesional, los problemas con el UPS, los cortes de energía son problemas comunes. ¿Qué incidentes desafiantes del centro de datos ha enfrentado? Si tiene una historia que contar, hablemos de ella en los comentarios.



Bono: corte de energía debido a mantenimiento



También hay situaciones que son bastante difíciles (aunque posibles) de prever. Por ejemplo, The Register volvió a contar una vez una historia enviada a la oficina editorial por uno de sus lectores. Érase una vez una granja de servidores con tres SAI de 220 kVA, que funcionó con bastante normalidad durante bastante tiempo. Con el tiempo, la necesidad de uno de los SAI desapareció y se decidió trasladarlo al nuevo centro de datos recién inaugurado. La gerencia planeaba ahorrar dinero en la compra de un nuevo UPS, pero resultó diferente.



Vale la pena señalar que el centro de datos en cuestión es bastante grande, su área era de unos 2500 metros cuadrados. Había una gran cantidad de equipos, varios cientos de servidores, por lo que era como la muerte admitir cualquier problema.



Se invitó a electricistas profesionales al centro de datos, a quienes se les confió la responsabilidad de desconectar uno de los SAI de la red y transportarlo con conexión adicional en el nuevo centro de datos. Como resultado, los profesionales hicieron algo mal y el centro de datos se desenergizó por completo.



“Estaba sentado en mi escritorio cuando los electricistas comenzaron a desconectar la unidad UPS de la red. Pusieron el sistema en bypass sin ningún problema. Luego cortaron el disyuntor de salida y algunos cables más para acelerar el desmantelamiento. Y luego, el centro de datos con un área de 2500 metros cuadrados de repente se quedó en silencio. Corrí a la sala de turbinas, esperando encontrar a los electricistas que estaban electrocutados. Pero simplemente desconectaron los cables con calma. Grité que el centro de datos se desconectó, a lo que los electricistas respondieron que el equipo se alimenta en modo bypass. Lo repeti. Se detuvieron, pensaron durante diez segundos y luego sus ojos se abrieron de par en par ”, dijo un testigo ocular.



Se necesitaron 36 horas para restaurar el centro de datos, aunque inicialmente los electricistas anunciaron un tiempo de inactividad por hora.



All Articles