Red como servicio para una gran empresa: un caso no estándar



¿Cómo actualizar el equipo de red en una gran empresa sin detener la producción ? Oleg Fedorov, director de gestión de proyectos de Linxdatacenter, habla sobre un proyecto a gran escala en el modo de "cirugía a corazón abierto"



En los últimos años, hemos visto una mayor demanda de los clientes por servicios relacionados con el componente de red de la infraestructura de TI. La necesidad de conectividad de sistemas, servicios, aplicaciones, monitoreo y gestión operativa de una empresa en casi cualquier área de TI está obligando a las empresas de hoy a prestar mayor atención a las redes.  



La gama de solicitudes, desde garantizar la resistencia de la red hasta crear y administrar un sistema autónomo del cliente con la compra de un bloque de direcciones IP, configurar protocolos de enrutamiento y control de tráfico de acuerdo con las políticas de las organizaciones.



También existe una creciente demanda de soluciones complejas para construir y mantener la infraestructura de red, principalmente de clientes cuya infraestructura de red se crea desde cero o está moralmente desactualizada, lo que requiere modificaciones importantes. 



Esta tendencia coincidió con el desarrollo y la complicación de la propia infraestructura de red de Linxdatacenter. Expandimos la geografía de nuestra presencia en Europa conectándonos a sitios remotos, lo que a su vez requirió la mejora de la infraestructura de red. 



La empresa ha lanzado un nuevo servicio para clientes, Network-as-a-Service: nos ocupamos de todas las tareas de red de nuestros clientes, permitiéndoles centrarse en su core business.



En el verano de 2020, se completó el primer gran proyecto en esta dirección, del que me gustaría hablar. 



Al principio 



Un gran complejo industrial acudió a nosotros para la modernización de la red que forma parte de la infraestructura de una de sus empresas. Se requirió reemplazar equipos viejos por nuevos, incluido el núcleo de la red.



La última modernización del equipo en la empresa tuvo lugar hace unos 10 años. La nueva administración de la empresa decidió mejorar la conectividad, comenzando con actualizaciones de infraestructura en el nivel físico más básico. 



El proyecto se dividió en dos partes: una actualización del parque de servidores y el equipo de red. Fuimos responsables de la segunda parte. 



Los requisitos básicos para el trabajo incluían minimizar el tiempo de inactividad de las líneas de producción de la empresa durante el trabajo (y en algunas áreas la eliminación completa del tiempo de inactividad). Cualquier parada: pérdida financiera directa del cliente, que no debería haber ocurrido bajo ninguna circunstancia. En relación con el modo de funcionamiento de la instalación 24x7x365, además de tener en cuenta la ausencia total de períodos de inactividad planificados en la práctica de la empresa, se nos encargó, de hecho, realizar una cirugía a corazón abierto. Esta se convirtió en la principal característica distintiva del proyecto.



Vamos



La obra se planificó según el principio de movimiento desde los nodos de la red alejados del núcleo a los más cercanos, así como desde los que menos afecten al funcionamiento de las líneas de producción hacia los que inciden directamente en esta obra. 



Por ejemplo, si toma un nodo de red en un departamento de ventas, una interrupción en la comunicación como resultado del trabajo en este departamento no afectará la producción de ninguna manera. Al mismo tiempo, tal incidente nos ayudará, como contratista, a verificar la exactitud del enfoque elegido para trabajar en dichos nodos y, habiendo ajustado las acciones, trabajar en las siguientes etapas del proyecto. 



Es necesario no solo reemplazar los nodos y cables en la red, sino también configurar correctamente todos los componentes para el correcto funcionamiento de la solución en su conjunto. Fueron las configuraciones las que se verificaron de esta manera: al comenzar a trabajar a distancia del kernel, nos dimos el "derecho a cometer un error", sin poner en peligro áreas críticas para la empresa. 



Hemos identificado áreas que no afectan el proceso de producción, así como áreas críticas: talleres, bloque de carga y descarga, almacenes, etc. En áreas clave, el cliente acordó el tiempo de inactividad permisible para cada nodo de la red por separado: de 1 a 15 minutos. ... Fue imposible evitar por completo la desconexión de los nodos de red individuales, ya que el cable debe cambiarse físicamente del equipo antiguo al nuevo, y en el proceso de cambio también es necesario desenredar la "barba" de los cables, que se formó durante varios años de operación sin el cuidado adecuado (una de las consecuencias del trabajo de subcontratación sobre la instalación de líneas de cable).



El trabajo se dividió en varias etapas.



Nivel 1- Auditoría. Elaboración y aprobación del planteamiento de planificación del trabajo y evaluación de la preparación de los equipos: el cliente, el contratista que realiza la instalación y nuestro equipo.



Etapa 2 - Desarrollo de un formato para la realización de trabajos, con análisis y planificación en profundidad. Elegimos un formato de lista de verificación con una indicación exacta del orden y secuencia de acciones, hasta la secuencia de conmutación de cables de conexión por puertos.



Etapa 3 - Realización de trabajos en armarios que no afecten a la producción. Estimación y ajuste de tiempos muertos para posteriores etapas de obra.



Etapa 4 - Realización de trabajos en armarios que inciden directamente en la producción. Estimación y ajuste de tiempos muertos para la etapa final de obra.



Etapa 5- Realización de trabajos en la sala de servidores para cambiar el equipo restante. Ejecutando enrutamiento en un nuevo kernel.



Etapa 6 : conmutación secuencial del núcleo del sistema de las configuraciones de red antiguas a las nuevas para una transición sin problemas de todo el complejo del sistema (VLAN, enrutamiento, etc.). En esta etapa, conectamos a todos los usuarios y transferimos todos los servicios a nuevos equipos, verificamos la corrección de la conexión, nos aseguramos de que ninguno de los servicios empresariales se detuviera, nos aseguramos de que en caso de algún problema se conectarían directamente al kernel, lo que facilitó la eliminación de posibles Solución de problemas y ajuste final. 



Peinado de barba



El proyecto también fue un desafío debido a las difíciles condiciones iniciales. 



En primer lugar, se trata de una gran cantidad de nodos y secciones de la red, con una compleja topología y clasificación de cables según su finalidad. Esas "barbas" tenían que ser sacadas de los armarios y minuciosamente "peinadas", averiguando qué cable conduce de dónde y dónde. 



Se veía algo como esto:





Entonces:





o así: 





En segundo lugar, para cada una de esas tareas era necesario preparar un archivo que describiera el proceso. "Tomamos el cable X del puerto 1 del equipo antiguo, lo conectamos al puerto 18 del nuevo equipo". Suena simple, pero cuando tiene 48 puertos completamente obstruidos en sus datos iniciales y no hay una opción inactiva (recordamos alrededor de 24x7x365), la única salida es trabajar en bloques. Cuantos más cables pueda extraer de un equipo antiguo a la vez, más rápido se podrán cepillar e insertar en el nuevo hardware de red, evitando interrupciones de la red y tiempo de inactividad. 



Por lo tanto, en la etapa preparatoria, dividimos la red en bloques, cada uno de ellos pertenecía a una VLAN específica. Cada puerto (o un subconjunto de ellos) del equipo antiguo es una de las VLAN de la nueva topología de red. Los hemos agrupado de la siguiente manera: los primeros puertos del switch están ubicados en las redes de usuarios, en el medio - redes de producción, y en el último - puntos de acceso y uplinks. 



Este enfoque hizo posible sacar y peinar el equipo antiguo, no 1 cable, sino de 10 a 15 cables a la vez. Esto aceleró el flujo de trabajo varias veces.  



Por cierto, así es como se ven los cables en los armarios después de peinarlos: 





o, por ejemplo, así: 





Una vez finalizada la 2ª etapa, nos tomamos un descanso para analizar los errores y la dinámica del proyecto. Por ejemplo, inmediatamente surgieron fallas menores debido a inexactitudes en los diagramas de red que se nos proporcionaron (un conector incorrecto en el diagrama es un cable de conexión comprado incorrectamente y la necesidad de reemplazarlo). 



La pausa era necesaria, ya que incluso una pequeña falla en el proceso era inaceptable cuando se trabaja desde el servidor. Si el objetivo era garantizar que el tiempo de inactividad en la sección de red no fuera de más de 5 minutos, entonces no se podría superar. Cualquier posible desviación del horario debía acordarse con el cliente. 



Sin embargo, la planificación preliminar y la división del proyecto en bloques permitió cumplir con el tiempo de inactividad planificado en todas las áreas y, en la mayoría de los casos, prescindir de él por completo. 



Desafío de tiempo - proyecto bajo COVID 



Sin embargo, hubo algunas complicaciones adicionales. Por supuesto, el coronavirus fue uno de los obstáculos. 



El trabajo se complicó por el hecho de que se inició una pandemia y fue imposible que todos los especialistas involucrados en el proceso estuvieran presentes durante el trabajo en el sitio del cliente. Solo el personal de instalación fue admitido en el sitio, y el control se llevó a cabo a través de la sala en Zoom: había un ingeniero de redes de Linxdatacenter, yo, como gerente de proyecto, un ingeniero de redes del lado del cliente responsable de la producción del trabajo y el equipo que realizaba el trabajo de instalación.



Durante el trabajo, surgieron problemas no contabilizados y fue necesario hacer ajustes sobre la marcha. Por lo tanto, fue posible evitar rápidamente la influencia del factor humano (errores en el esquema, errores en la determinación del estado de la actividad de la interfaz, etc.).



Aunque el formato de trabajo a distancia parecía inusual al comienzo del proyecto, rápidamente nos adaptamos a las nuevas condiciones y llegamos a la etapa final de trabajo. 



Ejecutamos una configuración de red temporal para ejecutar dos núcleos de red en paralelo, el antiguo y el nuevo, para garantizar una transición sin problemas. Sin embargo, resultó que no se eliminó una línea adicional del archivo de configuración del nuevo kernel y no se produjo la transición. Esto nos hizo pasar algún tiempo buscando el problema. 



Resultó que el tráfico principal se transmitió correctamente y el tráfico de control no llegó al nodo a través del nuevo núcleo. Gracias a la clara división del proyecto en etapas, fue posible identificar rápidamente la sección de la red donde surgió la dificultad, identificar el problema y solucionarlo. 



Como resultado



Resultados técnicos del proyecto En 



primer lugar, se creó un nuevo núcleo de la nueva red empresarial, para lo cual construimos anillos físicos / lógicos. Esto se hace de tal manera que cada conmutador de la red tiene un "segundo hombro". En la red antigua, muchos conmutadores estaban conectados al núcleo a través de una ruta, un hombro (enlace ascendente). Si estaba roto, el interruptor se volvió completamente inaccesible. Y si se conectaban varios conmutadores a través de un enlace ascendente, el accidente dejaba fuera de servicio a todo un departamento o una línea de producción de la empresa. 



En una red nueva, incluso un incidente de red bastante grave, bajo ningún escenario, podrá "matar" toda la red o su sección significativa. 



Se ha actualizado el 90% de todos los equipos de red, se han retirado los convertidores de medios (convertidores de medios de propagación de señales) y se ha eliminado la necesidad de líneas eléctricas dedicadas para alimentar equipos mediante la conexión a conmutadores PoE, donde la energía se suministra a través de cables Ethernet. 



Además, todas las conexiones ópticas en la sala de servidores y en los gabinetes en el campo están marcadas, en todos los centros de comunicación clave. Esto hizo posible preparar un diagrama topológico de equipos y conexiones en la red, reflejando su estado actual en la actualidad. 



Diagrama de Red



El resultado más importante desde un punto de vista técnico: el trabajo de infraestructura a gran escala se llevó a cabo rápidamente, sin crear ninguna interferencia en el funcionamiento de la empresa y casi invisible para su personal. 



Resultados comerciales del proyecto



En mi opinión, este proyecto es interesante principalmente no desde el punto de vista técnico, sino organizativo. La dificultad estaba principalmente en planificar y pensar en los pasos para implementar las tareas del proyecto. 



El éxito del proyecto nos permite decir que nuestra iniciativa de desarrollar la dirección de la red dentro del portafolio de servicios de Linxdatacenter es la elección correcta del vector para el desarrollo de la empresa. Un enfoque responsable de la gestión de proyectos, una estrategia competente y una planificación clara nos permitieron realizar el trabajo al nivel adecuado. 



Confirmación de la calidad del trabajo: una solicitud del cliente para continuar la prestación de servicios de modernización de la red en sus otros sitios en Rusia.



All Articles