🚕 🥋 🕺 Sistema de almacenamiento que no se vuelve obsoleto. Nunca 👨🏽‍🚒 ♥️ 👩🏾‍🎤

Al principio, la historia parece bastante simple: el sistema de almacenamiento funciona bien durante tres años con una garantía extendida, el cuarto es relativamente normal y el quinto se compra uno nuevo en lugar del obsoleto. Los proveedores le exprimen el dinero aumentando el costo del soporte y todo tipo de funciones pagas como el soporte VDI. ¿Se puede romper este esquema? Tal vez sí.

La empresa ingresó al mercado con una propuesta intrigante: una pieza de hardware siempre funciona, siempre lo hace rápidamente, el costo de soporte es el mismo todos los años, todas las funciones están disponibles de inmediato. Bueno, es decir, simplemente tomaron la caja y de vez en cuando cambian los componentes en ella para que se vuelvan obsoletos aproximadamente a la velocidad de reemplazo. Los controladores se actualizan cada tres años, es posible reemplazar discos viejos por otros más modernos, es decir, el espacio que ocupa el sistema de almacenamiento en el rack no solo puede crecer, sino también disminuir, mientras que el volumen y el rendimiento aumentan.

En realidad, lo primero que ve en el bastidor son las asas con el nombre del modelo, mediante las cuales puede y debe extraer los controladores del arreglo.

imagen

Esto se hace sin cerrar, ganar dinero, y el margen de productividad es tal que los sistemas bancarios no se ralentizan durante el reemplazo. Para ello, era necesario escribir tu propio sistema de archivos (más precisamente, un análogo de RAID), montar un clúster en su interior y hacer un par de mejoras, al mismo tiempo desechar la sobrecarga heredada de los discos duros.

Veamos qué pasó y cómo resultó. Empecemos por la arquitectura.

Para empezar, el procedimiento para trabajar con la matriz no incluye botones de encendido. Absolutamente. No necesitará. Para apagar, simplemente saque los cables de la PDU.

imagen

Arquitectura de almacenamiento pura

La compañía partió del hecho de que desarrolló desde cero una arquitectura muy buena, mejorada para flash (desde 2017 - NVMe) y algoritmos efectivos para la deduplicación y la compresión de datos. El cálculo fue el siguiente: luego hubo matrices de discos duros, soluciones híbridas y SSD all-flash en el mercado. Las unidades flash eran caras y las unidades de disco lentas. En consecuencia, irrumpieron en un entorno competitivo con matrices flash a costa de poseer matrices de discos.

imagen

Hicimos esto:

Escribimos nuestro propio sistema operativo para discos. La característica principal es la compresión rápida de datos antes de la grabación y luego el posprocesamiento con una potente deduplicación, que le permite apisonarlos de manera aún más densa y precisa.
Solo llevamos unidades flash (ahora generalmente es estrictamente NVMe) y hardware potente para la informática.

Las primeras implementaciones fueron para entornos VDI, ya que los datos allí se comprimían muy bien. Los algoritmos de deduplicación y compresión dieron una ganancia de seis a nueve veces en el espacio utilizado, es decir, con todas las ventajas de todo flash, bajaron los precios en aproximadamente un orden de magnitud. Además, el modelo económico me sobornó: un costo fijo por soporte y la capacidad de no cambiar la pieza de hardware. Luego vi los primeros reemplazos de dos bastidores para versiones de tres o seis unidades, pero todavía no creía que esta pieza de hierro se usaría en algún lugar fuera de VDI.

Y luego LinkedIn comenzó a almacenar estas piezas de hierro. AT&T conectado. Los principales bancos y empresas de telecomunicaciones de Estados Unidos también compraron prod.

Resultó que los algoritmos de compresión son bastante adecuados para entornos de desarrollo y prueba. Después de reemplazar SSD por NVME, la competencia comenzó repentinamente en las bases de datos transaccionales convencionales en el segmento bancario. Debido a que la matriz resultó ser rápida y confiable debido a su arquitectura, "en cualquier momento podemos perder dos módulos flash cualesquiera". Luego salió una matriz flash en chips más baratos (QLC) con un tiempo de respuesta de 2-4 ms, y no 1 ms como en los modelos superiores, y comencé a observar la eliminación del mismo VNX y Compellent. Quedó claro que la pieza de hierro es bastante competitiva.

Naturalmente, el costo de la TB seguirá siendo alto donde haya datos incompresibles: cifrado, archivo, secuencias de video (videovigilancia) y bibliotecas de imágenes, pero a veces estas implementaciones también ocurren cuando un cliente requiere un alto rendimiento. Conozco un caso en el que un video se comprimió (datos aparentemente comprimidos) en un 10% adicional.

Pero incluso para las bases de datos convencionales, resultó ser bastante viable a un precio por gigabyte.

Y fue aquí donde el modelo de sistema de almacenamiento "perenne" comenzó a sobornar.

Actualización constante

Durante cinco años, solo el chasis y las fuentes de alimentación permanecen en la pieza de hierro del antiguo, de hecho. Puede moverse en tirones con transferencias, o puede cambiar componentes como en un grupo. En realidad, este es el grupo, solo ensamblado en una caja de tres (o seis) unidades. El hierro se hizo desde cero para ellos mismos. Veamos primero la arquitectura y luego veamos por qué es conveniente cambiarla pieza por pieza.

imagen

Las soluciones interesantes son:

La potencia de cálculo es siempre el doble: es necesario reemplazar el controlador sin degradar el rendimiento. Al mismo tiempo, ambos controladores funcionan en el frente y un controlador se usa en el backend para escribir en módulos flash.
RAID- , N + 2, . , — , . .
N + 2, , . , . RAID, , , , ( ) , .
! , , . , - .
, ! , , ( ), - . , , , . . , RAID 10.
— NVMe-, — NVRAM. Optane. — , ( SCM-), .
. - , , . , .
3:1, . 512 , 8 . — , . . HDD, .
( ). , .

Pero no fue suficiente para la empresa ensamblar su arquitectura y escribir un sistema operativo de servidor virtual para ella. Se metieron en el nivel bajo de los chips flash y lanzaron los suyos. Pero al mismo tiempo compatible con los estándares. Arriba hay una interfaz NVMe, adentro hay chips de nuestro propio diseño.

imagen

El violín tomó este camino, que una vez les dio matrices cósmicamente rápidas. Solo ellos hicieron su propio estándar, pero aquí usan uno abierto y disponible públicamente. ¿Para qué sirve? El firmware del chip es parte del firmware del controlador y, por lo tanto, el sistema de almacenamiento sabe exactamente qué está sucediendo en cada bloque individual.

imagen

Si en un estante de disco normal cada módulo SSD o NVMe es una pequeña caja negra para un controlador, entonces aquí lo ve todo. Era necesario solucionar el problema de un gran volumen direccionable, porque los problemas de los arreglos flash son los mismos: manejo del desgaste, recolección de basura, etc. Esto se hace mediante firmware de los controladores.

imagen

Es decir, como ves, el enigma es el siguiente: un lugar barato se logra intercambiando por rendimiento. Alto rendimiento significa redundancia constante de procesadores y RAID. Un número excesivo de procesadores significa un potente posprocesamiento de compresión y la capacidad de perder cualquier parte sin perder rendimiento. RAID coincide con esta idea. Es decir, todas estas ventajas le dan al chip casi gratis para sacar cualquier parte del "beneficio".

Luego viene el marketing y ofrece la gran declaración de "almacenamiento sin edad". Precio de soporte fijo, todo el software incluido, sin paquetes adicionales. Debido a un nivel de servicio separado, puede reemplazar los controladores sin cargo cada tres años (nivel Evergreen GOLD). Hay actualizaciones a medida que aumentan los requisitos: vi cómo XR2 cambió a XR3. Trabajé durante un año, luego llegó un negocio y dijo que necesitábamos uno nuevo. El proveedor tiene la opción de intercambiar controladores antiguos y obtener nuevos con anticipación. Buena actualización. Los controladores solo cambian uno a la vez.

Actualizar discos es más interesante. Un estante de servicio adicional con discos viene de fábrica. Los datos se migran al estante sin detenerse: todos los datos de esos medios que deben reemplazarse. El estante funciona con los controladores principales (tiene los suyos propios). De hecho, este es un paquete de datos unitario, almacenamiento temporal. Cuando finaliza la migración, los discos se marcan como correctos y el ingeniero los quita del chasis. En lugar de los antiguos, inserta otros nuevos e inicia la migración inversa. Lleva un día o más, pero las aplicaciones y el servidor no se notan. Dado que estos sistemas de almacenamiento a menudo están disponibles a través de los proveedores de servicios, existe la posibilidad de reemplazo y actualización simultáneos: dentro del marco de Evergreen GOLD, puede cambiar discos viejos por varios nuevos, capaces y rápidos, además de comprar los mismos.

Entonces, es bueno completar, ¡el punto débil siempre es la compresión!

Estamos acostumbrados a escuchar esto de los usuarios de almacenamiento en disco. Allí, la historia es estándar, la funcionalidad no se proporcionó durante el desarrollo de la arquitectura, activaron la compresión, la aplicación se detuvo y luego pasaron mucho tiempo tratando de restaurar todo nuevamente bajo el abuso de la administración. Como ya se mencionó, Pure Storage ha tomado un camino diferente: la deduplicación con compresión se ha convertido en una funcionalidad básica no desconectable. El resultado es que Pure Storage ahora vale más de 15.000 instalaciones. Durante la inicialización, puede marcar la casilla "proporcionar estadísticas anónimas", y luego su sistema de almacenamiento enviará al sistema de monitoreo Pure 1. La garantía para las bases de datos, por ejemplo, es 3.5: 1. Hay características específicas: el mismo VDI de 7: 1 y superior. Las matrices se venden no en un lugar húmedo, sino en un contenedor útil con garantía de entrega adicional,es decir, si durante la migración su nivel de compresión está por debajo del garantizado, el proveedor coloca más discos físicos de forma gratuita. El proveedor dice que las unidades se entregan en aproximadamente el 9-10% de los casos y el error rara vez supera un par de unidades. En Rusia, no había visto esto antes, los coeficientes eran los mismos en todas las instalaciones, excepto en el caso de que se "revelaran" datos cifrados, sobre los cuales el cliente no dijo que estaban cifrados.

Debido a la naturaleza de las instantáneas, los entornos de prueba son muy eficientes. Hay un ejemplo de un cliente que hizo un tamaño de 7: 1 en el cálculo y recibió 14 kopeks a uno.

El vendedor declara lo siguiente:

Bases de datos 3.5: 1 (Oracle, MS SQL).
Virtualización de servidor 4.2: 1 (VMware, Hyper-V).
VDI 7.1: 1 (Citrix, VMware).
Relación promedio de 5: 1 en toda la base instalada.

También de la interesante funcionalidad: automatización e integración con piezas juveniles de moda como Kubernetes, así como soporte completo para VMware vvol. Aquí todo es simple: la mayoría de los clientes occidentales de Pure Storage son proveedores de la nube como ServiceNow, cuyo caso, por cierto, está publicado en el sitio web. Están acostumbrados a automatizar todo lo máximo posible.

Total

Resultó ser algo interesante, que al principio parece extraño, y luego cada vez más alegre y alegre. Cinco años en Gartner: por

imagen

supuesto, el modelo económico de Evergreen no es tan barato y barato, pero salva de una serie de hemorroides y parece bastante competitivo al calcular el costo de propiedad durante varios años.

PD Una reunión en línea está disponible a continuación: "Sistemas de almacenamiento de datos por suscripción: verdad o ficción".

Sistema de almacenamiento que no se vuelve obsoleto. Nunca

Arquitectura de almacenamiento pura

Actualización constante

Entonces, es bueno completar, ¡el punto débil siempre es la compresión!

Total

More articles: