Huawei OceanStor Dorado 18000 V6: cuál es su gama alta

Sostenemos bien que hace que el OceanStor Dorado 18000 V6 sea un sistema de almacenamiento verdaderamente de alta gama con una acumulación decente para los próximos años. Al mismo tiempo, disipamos las preocupaciones comunes sobre los almacenamientos All-Flash y mostramos cómo Huawei los aprovecha al máximo: NVMe de extremo a extremo, almacenamiento en caché adicional en SCM y un montón de otras soluciones.









Nuevo panorama de datos: nuevo almacenamiento de datos



La intensidad de la manipulación de datos está aumentando en todas las industrias. Y el sector bancario es un claro ejemplo de esto. En los últimos años, el número de transacciones bancarias se ha multiplicado por más de diez. Como muestra la investigación de BCG , solo en Rusia, en el período de 2010 a 2018, el número de transacciones no monetarias con tarjetas plásticas mostró un crecimiento de más de treinta veces, de 5.8 a 172 por persona por año. En primer lugar, el punto es el triunfo de los micropagos: la mayoría de nosotros nos hemos convertido en algo parecido a la banca en línea, y el banco ahora está a la mano: por teléfono.



La infraestructura de TI de una institución de crédito debe estar preparada para tal desafío. Y esto es realmente un desafío. Entre otras cosas, si antes el banco necesitaba asegurar la disponibilidad de datos solo durante su horario laboral, ahora es 24/7. Hasta hace poco, 5ms se consideraba una norma aceptable de latencia, ¿y qué? Ahora incluso 1 ms es demasiado. Para un sistema de almacenamiento moderno, el objetivo es 0,5 ms.



Lo mismo ocurre con la confiabilidad: en la década de 2010, se formó un entendimiento empírico de que era suficiente para llevar su nivel a las “cinco docenas”: 99,999%. Es cierto que esta comprensión se ha quedado obsoleta. En 2020, es absolutamente normal que las empresas requieran un 99,9999% para el almacenamiento y un 99,99999% para la arquitectura general. Y esto no es un capricho en absoluto, sino una necesidad urgente: o no hay una ventana de tiempo para el mantenimiento de la infraestructura o es pequeña.







Para mayor claridad, es conveniente proyectar estos indicadores en el plano del dinero. La forma más sencilla es a través del ejemplo de las instituciones financieras. El diagrama anterior muestra cuánto gana cada uno de los 10 principales bancos mundiales en una hora. Solo para el Banco Industrial y Comercial de China, esto no es menos de $ 5 millones. Exactamente cuánto costará una hora de tiempo de inactividad de la infraestructura de TI de la institución de crédito más grande de China (¡y solo la pérdida de ganancias se tiene en cuenta en el cálculo!) Desde esta perspectiva, está claro que reducir el tiempo de inactividad y aumentar la confiabilidad, no solo en un pequeño porcentaje, incluso en una fracción de un porcentaje, están completamente justificados de manera racional. No solo por razones de competitividad, sino también simplemente por mantener posiciones en el mercado.



Se están produciendo cambios comparables en otras industrias. Por ejemplo, en el transporte aéreo: antes de la pandemia, el tráfico aéreo solo ganaba impulso de año en año, y muchos comenzaron a usarlo casi como un taxi. En cuanto a los patrones de consumo, la sociedad tiene un arraigado hábito de accesibilidad total de los servicios: al llegar al aeropuerto, necesitamos una conexión wifi, acceso a los servicios de pago, un mapa de la zona, etc. Como resultado, la carga de infraestructura y servicios en los espacios públicos aumentado muchas veces. Y los enfoques, la infraestructura, la construcción, que considerábamos aceptables incluso hace un año, se están volviendo rápidamente obsoletos.







¿Es demasiado pronto para cambiar a All-Flash?



Para resolver los problemas mencionados anteriormente, desde el punto de vista del rendimiento de AFA, los arreglos all-flash, es decir, los arreglos completamente construidos en flash, son la mejor opción. A menos que, hasta hace poco, persistieran las dudas sobre si son comparables en fiabilidad con los ensamblados en base a HDD y con los híbridos. Después de todo, la memoria flash de estado sólido tiene una métrica como el tiempo medio entre fallas o MTBF. La degradación de las células debido a operaciones de E / S, por desgracia, es un hecho.



Por lo tanto, las perspectivas para All-Flash se vieron empañadas por la cuestión de cómo evitar la pérdida de datos en caso de que se ordene a los SSD que duren mucho tiempo. Hacer copias de seguridad es una opción habitual, pero el tiempo de recuperación sería inaceptablemente largo según los requisitos modernos. Otra salida es establecer un segundo nivel de almacenamiento en unidades de husillo, pero este esquema pierde algunas de las ventajas de un sistema "estrictamente flash".



Sin embargo, los números dicen lo contrario: las estadísticas de los gigantes de la economía digital, incluido Google, han demostrado en los últimos años que el flash es varias veces más confiable que los discos duros. Además, tanto durante un período corto como durante un período largo: en promedio, se necesitan de cuatro a seis años antes de que fallen las unidades flash. En términos de confiabilidad de almacenamiento de datos, no son de ninguna manera inferiores a las unidades magnéticas de husillo, si no superiores a ellas.







Otro argumento tradicional a favor de los accionamientos de husillo es su asequibilidad. No hay duda de que el costo de almacenar un terabyte en un disco duro sigue siendo relativamente bajo. Y si solo tiene en cuenta el costo del equipo, mantener un terabyte en una unidad de husillo es más barato que en una unidad de estado sólido. Sin embargo, en el contexto de la planificación financiera, no solo importa cuánto se compró un dispositivo en particular, sino también cuál es el costo total de poseerlo durante mucho tiempo, de tres a siete años.



Desde este punto de vista, todo es completamente diferente. Incluso si dejamos fuera de paréntesis la deduplicación y la compresión, que, por regla general, se utilizan en arreglos flash y hacen que su funcionamiento sea más rentable económicamente, permanecen características como el espacio de rack ocupado por los portadores, la disipación de calor y el consumo de energía. Y según ellos, el rubor gana a sus predecesores. Como resultado, el TCO de los sistemas de almacenamiento en flash, teniendo en cuenta todos los parámetros, suele ser casi la mitad que en el caso de los arreglos en unidades de husillo o con híbridos.



Según los informes de ESG, los sistemas de almacenamiento Dorado V6 All-Flash pueden lograr una reducción del 78% en el costo de propiedad en un intervalo de cinco años, incluso a través de una deduplicación y compresión eficientes, y un bajo consumo de energía y disipación de calor. La empresa analítica alemana DCIG también los recomienda para su uso como el TCO óptimo disponible en la actualidad.




El uso de unidades de estado sólido permite ahorrar espacio utilizable, reducir el número de fallas, reducir el tiempo de mantenimiento de la solución y reducir el consumo de energía y la disipación de calor del sistema de almacenamiento. Y resulta que AFA es económicamente al menos comparable a los arreglos tradicionales en accionamientos de husillo y, a menudo, los supera.







Escalera real de Huawei



Entre nuestros almacenamientos All-Flash, el primer lugar pertenece al sistema de gama alta OceanStor Dorado 18000 V6. Y no solo entre los nuestros: en toda la industria, tiene el récord de velocidad: hasta 20 millones de IPOS en la configuración máxima. Además, es extremadamente confiable: incluso si dos controladores vuelan a la vez, o hasta siete controladores uno tras otro, o un motor completo a la vez, los datos sobrevivirán. Una gran ventaja de la "dieciocho milésima" la da la IA conectada a ella, incluida la flexibilidad en la gestión de procesos internos. Veamos cómo se consigue todo esto.







En gran medida, Huawei tiene una ventaja inicial porque es el único fabricante en el mercado que fabrica sistemas de almacenamiento de datos por sí mismo, completa y completamente. Tenemos nuestro propio circuito, nuestro propio microcódigo, nuestro propio servicio.



El controlador de los sistemas OceanStor Dorado se basa en el Kunpeng 920, un procesador patentado y fabricado por Huawei, que utiliza el controlador inteligente de gestión de placa base (iBMC), también nuestro. Los chips AI, a saber, el Ascend 310, que optimizan las predicciones de fallas y brindan recomendaciones para la configuración, también son huaveanos, al igual que las placas de E / S, el módulo de E / S inteligente. Finalmente, los controladores en unidades de estado sólido son diseñados y fabricados por nosotros. Todo esto proporcionó la base para hacer una solución integralmente equilibrada y de alto rendimiento.







, . 40 OceanStor Dorado 18000 V6 metro- : IOPS, - .








NVMe



Los últimos sistemas de almacenamiento de Huawei son compatibles con NVMe de extremo a extremo, en lo que nos centramos por una razón. Los protocolos de acceso al almacenamiento utilizados tradicionalmente se desarrollaron en la antigua antigüedad de la tecnología de la información: se basan en comandos SCSI (¡hola, años 80!), Que incorporan muchas funciones para garantizar la compatibilidad con versiones anteriores. Cualquiera que sea el método de acceso que tome, la sobrecarga del protocolo es colosal en este caso. Como resultado, los almacenamientos que utilizan protocolos relacionados con SCSI tienen una latencia de E / S que no puede ser inferior a 0,4–0,5 ms. A su vez, al ser un protocolo creado para trabajar con memoria flash y deshacerse de muletas en aras de una notoria compatibilidad con versiones anteriores, NVMe (Non-Volatile Memory Express) reduce la latencia a 0,1 ms, además, no en los sistemas de almacenamiento, sino en toda la pila, desde host a las unidades. No es sorprendente,que NVMe está en línea con las tendencias de desarrollo de almacenamiento de datos para el futuro previsible. También apostamos por NVMe, y nos estamos alejando gradualmente de SCSI. Todos los sistemas de almacenamiento de Huawei producidos hoy, incluida la línea Dorado, son compatibles con NVMe (aunque, como un extremo a extremo, se implementa solo en los modelos avanzados de la serie Dorado V6).







FlashLink: un puñado de tecnología



La piedra angular de toda la línea OceanStor Dorado es FlashLink. Más precisamente, es un término que engloba un conjunto integral de tecnologías que sirven para brindar alto desempeño y confiabilidad. Esto incluye tecnologías de deduplicación y compresión, el funcionamiento del sistema de distribución de datos RAID 2.0+, la separación de datos "fríos" y "calientes", la grabación de datos secuenciales de tira completa (escrituras aleatorias, con datos nuevos y modificados, se agregan en una pila grande y se escriben secuencialmente, lo que aumenta la velocidad leer escribir).



Entre otras cosas, FlashLink incluye dos componentes importantes: Wear Leveling y Global Garbage Collection. Vale la pena detenerse en ellos por separado.



Prácticamente cualquier SSD es un sistema de almacenamiento en miniatura con una gran cantidad de bloques y un controlador que garantiza la disponibilidad de los datos. Y se proporciona, entre otras cosas, debido al hecho de que los datos de las células "muertas" se transfieren a las "no muertas". Esto asegura que se puedan leer. Existen varios algoritmos para esta transferencia. En general, el controlador intenta equilibrar el desgaste de todas las celdas de almacenamiento. Este enfoque tiene un inconveniente. Cuando los datos se mueven dentro de un SSD, la cantidad de operaciones de E / S que realiza se reduce drásticamente. Por el momento, este es un mal necesario.



Por lo tanto, si el sistema tiene muchas unidades de estado sólido, aparece una "sierra" en el gráfico de su rendimiento, con altibajos bruscos. El problema es que una unidad del grupo puede iniciar la migración de datos en cualquier momento y el rendimiento general se elimina a la vez de todos los SSD de la matriz. Pero los ingenieros de Huawei descubrieron cómo evitar la "sierra".



Afortunadamente, los controladores de las unidades, el controlador de almacenamiento y el microcódigo de Huawei son "nativos", estos procesos en OceanStor Dorado 18000 V6 se inician de forma centralizada y sincrónica en todas las unidades de la matriz. Además, a las órdenes del controlador de almacenamiento y precisamente cuando no hay mucha carga en la E / S.



: , -, , , : Wear Leveling, .




Además, el controlador del sistema ve lo que está sucediendo en cada celda de la unidad, a diferencia de los sistemas de almacenamiento de los fabricantes de la competencia: se ven obligados a comprar medios de estado sólido de proveedores externos, por lo que los detalles a nivel de celda no están disponibles para los controladores de dichos almacenamientos.



Como resultado, el OceanStor Dorado 18000 V6 tiene un período muy corto de pérdida de rendimiento durante la nivelación de desgaste, y se realiza principalmente cuando no se interfiere con otros procesos. Esto proporciona un rendimiento alto y constante de forma constante.







Lo que hace que el OceanStor Dorado 18000 V6 sea confiable



En los sistemas de almacenamiento de datos modernos, se distinguen cuatro niveles de confiabilidad:



  • hardware, a nivel de unidad;
  • arquitectónico, a nivel de equipamiento;
  • arquitectónico junto con la parte de software;
  • acumulativo, refiriéndose a la decisión en su conjunto.


Dado que, recordamos, nuestra empresa diseña y fabrica todos los componentes del sistema de almacenamiento en sí, aseguramos la confiabilidad en cada uno de los cuatro niveles, con la capacidad de rastrear a fondo lo que está sucediendo en cuál de ellos en este momento.







La confiabilidad de las unidades está garantizada principalmente por la nivelación de desgaste y la recolección de basura global descritas anteriormente. Cuando un SSD parece una caja negra al sistema, no tiene idea de cómo se desgastan las celdas en él. Para el OceanStor Dorado 18000 V6, las unidades son transparentes, lo que hace posible equilibrar uniformemente todas las unidades de la matriz. Por lo tanto, resulta que extiende significativamente la vida útil de los SSD y asegura un alto nivel de confiabilidad de su funcionamiento.







Además, las celdas redundantes adicionales en él afectan la confiabilidad de la unidad. Y junto con una simple reserva en el sistema de almacenamiento, se utilizan las llamadas celdas DIF, que contienen sumas de verificación, así como códigos adicionales para salvar cada bloque de un solo error, además de protección a nivel de matriz RAID.







La solución SmartMatrix es la clave para la confiabilidad arquitectónica. En resumen, estos son cuatro controladores que se sientan en un backplane pasivo como parte de un motor. Dos de estos motores, respectivamente, con ocho controladores, están conectados a estantes comunes con unidades. Gracias a SmartMatrix, incluso si siete de los ocho controladores dejan de funcionar, el acceso a todos los datos, tanto de lectura como de escritura, permanece. Y si pierde seis de los ocho controladores, incluso puede continuar almacenando en caché.







Las tarjetas de E / S en el mismo backplane pasivo están disponibles para todos los controladores, tanto en el front-end como en el back-end. Con este esquema de conexión de malla completa, no importa lo que falle, el acceso a las unidades siempre se conserva.







Es más apropiado hablar sobre la confiabilidad de la arquitectura en el contexto de los escenarios de falla contra los que puede protegerse el sistema de almacenamiento.



El almacenamiento sobrevivirá a la situación sin pérdida si dos controladores "se caen", incluso simultáneamente. Dicha estabilidad se logra debido a que cualquier bloque de caché ciertamente tiene dos copias más en diferentes controladores, es decir, en total, existe en tres copias. Y al menos uno está en un motor diferente. Por lo tanto, incluso si todo el motor deja de funcionar, con sus cuatro controladores, se garantiza que toda la información que estaba en la memoria caché se guardará, porque la caché se duplicará en al menos un controlador del motor restante. Finalmente, con una conexión en cadena, puede perder hasta siete controladores, e incluso si se eliminan en bloques de dos, y nuevamente, se guardarán todas las E / S y todos los datos de la memoria caché.







En comparación con los almacenamientos de gama alta de otros fabricantes, se puede ver que solo Huawei proporciona protección de datos completa y disponibilidad total incluso después de la muerte de dos controladores o de todo el motor. La mayoría de los proveedores utilizan un esquema con los denominados pares de controladores, a los que se conectan las unidades. Desafortunadamente, en esta configuración, si dos controladores fallan, existe el riesgo de perder el acceso de E / S a la unidad.







Por desgracia, no se excluye objetivamente la falla de un solo componente. En este caso, el rendimiento se ralentizará por un tiempo: es necesario reconstruir las rutas y reanudar el acceso para las operaciones de E / S en relación con los bloques que vinieron para escritura, pero aún no se escribieron o se solicitaron para lectura. El OceanStor Dorado 18000 V6 tiene un tiempo de reconstrucción promedio de aproximadamente un segundo, significativamente menos que su análogo más cercano en la industria (4 segundos). Esto se logra gracias al mismo backplane pasivo: cuando falla el controlador, los demás ven inmediatamente su E / S y, en particular, qué bloque de datos no se agregó; como resultado, el controlador más cercano retoma el proceso. De ahí la capacidad de restaurar el rendimiento en solo un segundo. Cabe agregar que el intervalo es estable: un segundo por controlador,segundo para otro, etc.







En el backplane pasivo OceanStor Dorado 18000 V6, todas las placas están disponibles para todos los controladores sin ningún direccionamiento adicional. Esto significa que cualquier controlador es capaz de captar E / S en cualquier puerto. Cualquiera que sea el puerto de E / S de front-end al que llegue, el controlador estará listo para resolverlo. Por lo tanto, el número mínimo de transferencias internas y una notable simplificación del equilibrio.



El equilibrio de la interfaz de usuario se realiza mediante el controlador de rutas múltiples y, además, el equilibrio se realiza dentro del propio sistema, ya que todos los controladores ven todos los puertos de E / S.







Tradicionalmente, todos los arreglos de Huawei están diseñados de tal manera que no hay un solo punto de falla. Todos sus componentes se pueden reemplazar "en caliente" sin reiniciar el sistema: controladores, módulos de potencia, módulos de refrigeración, placas de E / S, etc.







Una tecnología como RAID-TP también mejora la confiabilidad del sistema en su conjunto. Este es el nombre de un grupo RAID que le permite protegerse contra fallas simultáneas de hasta tres unidades. Además , una reconstrucción de 1 TB lleva constantemente menos de 30 minutos. Los mejores resultados registrados: ocho veces más rápido que con la misma cantidad de datos en una unidad de husillo. Por lo tanto, es posible utilizar unidades de gran capacidad, digamos, 7,68 o incluso 15 TB, y no preocuparse por la fiabilidad del sistema.



Es importante que la reconstrucción se lleve a cabo no en la unidad de repuesto, sino en el espacio libre: la capacidad de reserva. Cada unidad tiene espacio de almacenamiento dedicado que se utiliza para la recuperación ante desastres. Por lo tanto, la restauración no se lleva a cabo según el esquema "muchos a uno", sino según el esquema "muchos a muchos", por lo que es posible acelerar significativamente el proceso. Y mientras haya capacidad libre, la recuperación puede continuar.







Por separado, se debe mencionar la confiabilidad de una solución de varios almacenamientos: en un clúster metropolitano o, en la terminología de Huawei, HyperMetro. Dichos esquemas son compatibles con toda la gama de modelos de nuestros sistemas de almacenamiento de datos y pueden funcionar tanto con archivos como con acceso a bloques. Además, en el bloque funciona tanto a través de Fibre Channel como de Ethernet (incluido iSCSI).



En esencia, estamos hablando de la replicación bidireccional de un sistema de almacenamiento a otro, en la que al LUN replicado se le asigna el mismo LUN-ID que al principal. La tecnología funciona principalmente debido a la consistencia de las cachés de dos sistemas diferentes. Por lo tanto, para el host es absolutamente igual de qué lado es: aquí y allá ve el mismo disco lógico. Como resultado, nada le impide implementar un clúster de conmutación por error que abarque dos sitios.



Para quórum, se utiliza una máquina Linux física o virtual. Se puede ubicar en el tercer sitio y los requisitos para sus recursos son pequeños. Un escenario común es alquilar un sitio virtual exclusivamente para alojar una máquina virtual de quórum.



La tecnología también permite la expansión: dos almacenamientos, en un clúster metropolitano, una plataforma adicional, con replicación asincrónica.







Históricamente, muchos clientes han formado un "zoológico de almacenamiento": un grupo de sistemas de almacenamiento de diferentes fabricantes, diferentes modelos, diferentes generaciones, con diferentes funcionalidades. Sin embargo, la cantidad de hosts puede ser impresionante y, a menudo, están virtualizados. En tales condiciones, una de las tareas prioritarias de la administración es proporcionar rápida, uniforme y convenientemente discos lógicos para hosts, preferiblemente de tal manera que no se profundice en dónde están ubicados físicamente estos discos. Esto es exactamente para lo que está destinada nuestra solución de software OceanStor DJ, que puede unificar la gestión de varios sistemas de almacenamiento y proporcionar servicios desde ellos sin estar atada a un modelo de almacenamiento específico.







Igual y AI



Como ya se mencionó, el OceanStor Dorado 18000 V6 tiene procesadores integrados con algoritmos de inteligencia artificial: Ascend. Se utilizan, en primer lugar, para predecir fallas y, en segundo lugar, para formar recomendaciones para el ajuste, lo que también aumenta el rendimiento y la confiabilidad del almacenamiento.



El horizonte de predicción es de dos meses: la maquinaria de IA asume que lo más probable es que ocurra durante este tiempo, es hora de hacer una expansión, cambiar políticas de acceso, etc. Las recomendaciones se dan con anticipación, lo que permite programar ventanas para el mantenimiento del sistema con anticipación.







La siguiente etapa en el desarrollo de la IA de Huawei implica llevarla a nivel mundial. Durante el mantenimiento del servicio (conmutación por error o recomendación), Huawei agrega información de los sistemas de registro de todos los almacenamientos de nuestros clientes. Con base en los datos recopilados, se lleva a cabo un análisis de las fallas ocurridas o potenciales y se hacen recomendaciones globales, basadas no en el funcionamiento de un sistema de almacenamiento en particular o incluso en una docena, sino en lo que está sucediendo y sucediendo con miles de tales dispositivos. La muestra es enorme y, en base a ella, los algoritmos de IA comienzan a aprender de manera extremadamente rápida, lo que hace que las predicciones sean más precisas.



Compatibilidad









En 2019-2020, hubo muchas insinuaciones sobre cómo nuestro hardware interactúa con los productos de VMware. Para finalmente detenerlos, declaramos responsablemente: VMware es un socio de Huawei. Se llevaron a cabo todas las pruebas imaginables para la compatibilidad de nuestro hardware con su software, y como resultado, en el sitio web de VMware en la lista de compatibilidad de hardware, se indican sin reservas los sistemas de almacenamiento disponibles actualmente de nuestra producción. En otras palabras, con el entorno de software VMware, puede utilizar el almacenamiento de Huawei, incluido Dorado V6, con soporte completo.







Lo mismo ocurre con nuestra colaboración con Brocade. Continuamos interactuando y realizando pruebas de interoperabilidad para nuestros productos para garantizar que nuestros sistemas de almacenamiento sean completamente interoperables con los últimos conmutadores Brocade FC.







¿Que sigue?



Continuamos desarrollando y mejorando nuestros procesadores: se vuelven más rápidos, más confiables, su rendimiento está creciendo. También estamos mejorando los chips de IA: sobre la base de ellos, entre otras cosas, se producen módulos que aceleran la deduplicación y la compresión. Quienes tienen acceso a nuestro configurador pueden haber notado que en los modelos Dorado V6 estas tarjetas ya están disponibles para pedido.



También estamos avanzando hacia el almacenamiento en caché adicional en la memoria de clase de almacenamiento: memoria no volátil con latencias especialmente bajas, alrededor de diez microsegundos por lectura. Entre otras cosas, SCM aumenta el rendimiento, especialmente cuando se trabaja con big data y cuando se resuelven tareas OLTP. Después de la próxima actualización, las tarjetas SCM deberían estar disponibles para su pedido.



Y, por supuesto, la funcionalidad de acceso a archivos se expandirá en toda la línea de almacenes de datos de Huawei: permanezca atento a nuestras actualizaciones.



All Articles