Acelerando: Actualización de la infraestructura del centro de datos





En nuestro centro de datos, ha comenzado otro ciclo de actualización de hardware. ¿Por qué y cómo lo hicimos?



El tiempo es ahora 



En el último año, las solicitudes de los clientes de procesadores de alta frecuencia se han vuelto más frecuentes para la implementación de sistemas que exigen la velocidad de la computación y la disponibilidad de recursos de CPU, una clara señal del próximo ciclo de actualizaciones de hardware. Así es como nació nuestro propio proyecto de actualización de infraestructura en la nube Linxdatacenter. 



En el transcurso de largos cálculos y negociaciones entre nuestro equipo técnico y los fabricantes, se decidió utilizar el diseño validado de Cisco VersaStack. Este diseño se utiliza en Cisco Fabric Interconnect, servidores UCS, sistemas de almacenamiento de la familia IBM FlashSystem.



Se decidió llevar el rendimiento de la CPU de la plataforma en la nube a un nuevo nivel: para ello, compramos nuevos servidores blade de alta frecuencia basados ​​en el chasis UCS de la serie Cisco B200 M5. Esta es la línea más nueva, con procesadores de última generación a 3.4 GHz, que solo llegaron al mercado en el primer trimestre de 2020. 



Una solución con tales "cerebros" en su núcleo permite acelerar el trabajo de productos que exigen rendimiento. En primer lugar, se trata de plataformas en la nube 1C y SAP, soluciones ERP, aplicaciones que requieren el procesamiento de conjuntos de datos serios, diversas soluciones para el desarrollo y la prueba de software. 



Otra actualización importante es el nuevo sistema de almacenamiento de respaldo. Para garantizar el SLA para el servicio BaaS, se decidió instalar en nuestro centro de datos Cisco S3260, una gran combinación de 4 unidades, en la que están "atascados" 54 discos. Este paso se tomó para unificar las plataformas en San Petersburgo y Moscú. Además, a diferencia del hardware antiguo, esto nos permitirá utilizar la tecnología Direct Storage Access. 



El software Veeam se instala en Cisco S3260 con la perspectiva de proporcionar el modelo de acceso directo mediante la integración con un nuevo sistema de almacenamiento de IBM. Las instantáneas de las últimas versiones del sistema de almacenamiento y la recopilación de copias de seguridad se llevarán a cabo sin una solicitud a los servidores de virtualización, por lo que nos deshacemos de un comando adicional de VMware. 



Tal esquema elimina la carga excesiva de los servidores, mejora el rendimiento y el rendimiento. 



Los sistemas tradicionales de copia de seguridad de VM toman una instantánea antes de la ejecución, luego copian los datos de la VM en ellos mismos y eliminan la instantánea. Para máquinas virtuales grandes y de alta intensidad, el tamaño de la instantánea puede aumentar drásticamente durante el proceso de copia de seguridad y, cuando se elimina esta instantánea, el disco principal de la máquina virtual y la instantánea se fusionarán. En este punto, es posible que la máquina virtual no esté disponible durante unos segundos. El uso de la tecnología de instantáneas a nivel de almacenamiento evita estos problemas.



Un poco más de detalle



Echemos un vistazo a cómo mejorará la plataforma en la nube Linxdatacenter después de la actualización. 



El punto clave es que somos uno de los primeros en intentar llevar al mercado la tecnología NVME de punta a punta, que se distingue por un IOPS alto y una latencia baja (un orden de magnitud menor que SSD) (retraso antes de que se ejecute la solicitud). Sin embargo, esta tecnología requiere una mejora adicional de la infraestructura y también afecta la parte de la red, cuya actualización también está prevista para nosotros.



Pasemos a la CPU. Tradicionalmente, esta es el área de más rápido crecimiento en equipos de TI. Por ejemplo, a partir del segundo trimestre de 2019, el procesador en el mercado a una frecuencia de reloj de 3.3 GHz dio solo 8 núcleos. 



Nuestros nuevos procesadores Intel 6246R tienen una frecuencia de 3,4 GHz con 16 núcleos. En poco más de un año, tanto la frecuencia como la cantidad de núcleos disponibles han aumentado significativamente. En términos de virtualización, la actualización proporcionará a más clientes un sistema de TI de mayor rendimiento.



En cuanto a los sistemas de almacenamiento, este elemento siempre ha sido el área de desarrollo más lento de cualquier sistema de información. En realidad, la RAM, como elemento de cualquier sistema de TI, ya sea de usuario o profesional, ha surgido como una herramienta para evitar el bajo rendimiento de almacenamiento. 



Pero hoy existe una oportunidad tecnológica para equiparar la velocidad del sistema de almacenamiento con la velocidad de la RAM, lo que permitirá ejecutar transacciones y tomar sus resultados de los sistemas de almacenamiento de datos decenas de veces más rápido. 



Supongamos que, si una operación, por ejemplo, procesar una solicitud a una base de datos de alta carga, solía realizarse en 1 minuto, en los sistemas de almacenamiento modernos solo tomará un par de segundos.



Por último, pero no menos importante, IBM FlashSystem te permite reducir la latencia máxima de las unidades de disco a menos de 1 milisegundo, es decir, literalmente, ni siquiera a 0,1, sino a 0,01 milisegundos. Ahora hemos dado un paso más hacia estos indicadores: estarán disponibles en nuestra nube después de la siguiente etapa de la actualización. 



En pienso para caballos, en crecimiento empresarial



Para describir con precisión el efecto de una actualización de hierro en una nube, es apropiado usar esta analogía. 



Imagina que estás escribiendo texto en el editor de Word. Lo escribió en el teclado, miró hacia arriba y el programa de la frase que escribió logró mostrar solo la primera palabra en la pantalla. Lo pensó, lo formuló, lo mecanografió con los dedos en el teclado, ya está allí, ya ha entrado en la computadora, pero aún no ha aparecido en la pantalla.



Después de actualizar la infraestructura con un enfoque integrado, esta brecha desaparece y se vuelve imposible incluso a nivel teórico. 



Por supuesto, todos estos elementos "inflados" deben ensamblarse adecuadamente en una solución final que proporcione un alto nivel de eficiencia económica y beneficio comercial. 



Para el negocio de nuestros clientes en Rusia, las nuevas oportunidades permitirán, en primer lugar, acelerar significativamente el trabajo del software 1C. 



Si se requiere 1C solo para 10 a 15 usuarios, funcionará bien incluso “en una calculadora”, es decir, tendrá suficientes recursos de TI estándar o modestos. Sin embargo, tan pronto como una empresa comienza a proporcionar servicios en tiempo real basados ​​en 1C, o la empresa tiene operaciones a gran escala y muchas mejoras diferentes, todo esto "consume" tiempo y potencia del procesador. 



En consecuencia, cuantas más mejoras, mayor sea la escala de operaciones en 1C, mayores serán los requisitos para el recurso de la CPU. La arquitectura del software 1C se construye de esta manera. Y luego sucede lo siguiente: cuanto mayor es la frecuencia del procesador, menos núcleos puede dar. Y su precio sube al mismo tiempo.



Por lo tanto, si utiliza aplicaciones comerciales de nivel medio o alto, no puede prescindir de los procesadores de alto rendimiento en el corazón de una solución de TI moderna.



Desde un punto de vista comercial, su uso significa que un contador que presionó un botón en 1C para recibir, digamos, un informe anual, en un sistema de alto rendimiento, recibirá el resultado no en 2 minutos, sino instantáneamente. En consecuencia, puede completar el resultado final de sumar presupuestos, totales y cerrar el período financiero en toda la empresa no en tres días, como ahora, pero claramente a partir del último día del período de informe. 



En cuanto a las tareas de copia de seguridad, debe entenderse que cualquier instantánea "congela" la máquina virtual durante al menos una fracción de segundo y, a veces, incluso más. Cuando se elimina la versión anterior, también puede congelar la VM durante un par de segundos. Este es un efecto estándar. 



La transferencia del procedimiento al nivel de almacenamiento mediante la tecnología Direct Storage Access elimina por completo dichos retrasos, aunque sean mínimos. 



Suponga que una empresa ejecuta tareas de respaldo en una plataforma hiperconvergente utilizando un clúster Ceph distribuido (un sistema de almacenamiento de archivos para múltiples máquinas virtuales). Con este enfoque, cualquier retraso en la VM es inaceptable. 



O tomemos este escenario: la ejecución de una transacción en la base de datos del banco, que dura, digamos, 30 segundos, coincide en el tiempo con el "congelamiento" de la VM involucrada en esta transacción durante la creación de la instantánea. 



Como resultado, el cliente depositó dinero en el cajero automático, pero el dinero no se acreditó en la cuenta. El cliente está insatisfecho y de boca en boca comparte su opinión negativa sobre el banco. El resultado es una pérdida de reputación para la empresa.



Primeros usuarios



Ya existen empresas en nuestro centro de datos que están interesadas en las capacidades de la plataforma actualizada y la están probando de forma gratuita para ver qué resultados prácticos se obtendrán. 



Hasta ahora, estamos registrando el interés del segmento de servicios financieros, la construcción, así como de las empresas que utilizan aplicaciones comerciales que son críticas para cualquier tiempo de inactividad, incluso mínimo. Cuanto menor sea el tiempo de inactividad, mayor será la disponibilidad del servicio y menor el costo de mantenimiento de la aplicación, y mejor será el rendimiento del servicio que recibe el usuario final. 



Lo más probable es que todos los participantes en estas pruebas estén interesados ​​en la plataforma actualizada, porque la elección económica entre comprar un servidor de alto rendimiento sin mayor desarrollo y alquilarlo por un mes es prácticamente obvia tanto cuando se enfoca en proyectos a corto plazo como en la perspectiva de desarrollo comercial a largo plazo basado en TI avanzada. soluciones.



All Articles