🌫️ 🏀 👨‍❤️‍💋‍👨 Cómo desarrolló la infraestructura Uma.Tech 🐞 📫 👙

Lanzamos nuevos servicios, creció el tráfico, reemplazamos servidores, conectamos nuevos sitios y rediseñamos los centros de datos, y ahora contaremos esta historia, cuyo comienzo les presentamos hace cinco años .

Cinco años es un tiempo característico para resumir los resultados intermedios. Por lo tanto, decidimos hablar sobre el desarrollo de nuestra infraestructura, que ha atravesado un camino de desarrollo increíblemente interesante durante los cinco años, del cual estamos orgullosos. Los cambios cuantitativos que hemos implementado se han convertido en cualitativos, ahora la infraestructura puede operar en modos que parecían fantásticos a mediados de la última década.

Brindamos trabajo para los proyectos más complejos con los más estrictos requisitos de confiabilidad y cargas, incluyendo PREMIER y Match TV. En las transmisiones deportivas y en el estreno de series de televisión populares, se requiere el retorno del tráfico en terabits / s, podemos implementarlo fácilmente y, con tanta frecuencia, trabajar a esas velocidades se ha convertido en algo común para nosotros. Y hace cinco años, el proyecto más difícil trabajando en nuestros sistemas fue Rutube, que se viene desarrollando desde entonces, aumentando volúmenes y tráfico, lo cual había que tener en cuenta a la hora de planificar cargas.

Hablamos sobre cómo desarrollamos el hardware de nuestra infraestructura ( "Rutube 2009-2015: la historia de nuestro hardware" ) y desarrollamos un sistema responsable de la carga de videos ( "De cero a 700 gigabits por segundo: cómo uno de los sitios de alojamiento de videos más grandes de Rusia carga videos "), pero ha pasado mucho tiempo desde la redacción de estos textos, se han creado e implementado muchas otras soluciones, cuyos resultados nos permiten cumplir con los requisitos modernos y ser lo suficientemente flexibles para reconstruir para nuevas tareas. Desarrollamos constantemente el

núcleo de la red . Cambiamos a equipos Cisco en 2015, como se mencionó en el último artículo. Entonces era todo el mismo 10 / 40G, pero por una razón obvia, después de unos años modernizaron el chasis existente, y ahora también estamos usando activamente 25 / 100G.

Los enlaces 100G no han sido durante mucho tiempo un lujo (más bien, es un requisito urgente de la época en nuestro segmento), ni una rareza (cada vez más operadores brindan conexión a tales velocidades). Sin embargo, 10 / 40G sigue siendo relevante: a través de estos enlaces, continuamos conectando operadores con un pequeño volumen de tráfico, a través del cual actualmente no es práctico utilizar un puerto más grande.

El núcleo de red que hemos creado merece una consideración por separado y se convertirá en el tema de un artículo separado un poco más adelante. Allí profundizaremos en los detalles técnicos y consideraremos la lógica de nuestras acciones a la hora de crearlo. Pero ahora seguiremos dibujando la infraestructura de manera más esquemática, ya que su atención, queridos lectores, no es ilimitada.

Servidores de servicio de videoevolucionar rápidamente, por lo que ofrecemos mucho esfuerzo. Si antes usábamos principalmente servidores de 2U con 4-5 tarjetas de red con dos puertos de 10G cada una, ahora la mayor parte del tráfico se envía desde servidores de 1U, en los que hay 2-3 tarjetas con dos puertos de 25G cada una. Las tarjetas con 10G y 25G tienen casi el mismo valor, y las soluciones más rápidas le permiten dar tanto 10G como 25G. El resultado es un claro ahorro: menos componentes de servidor y cables para conectar - menos costo (y más confiabilidad), los componentes ocupan menos espacio en el rack - se pueden acomodar más servidores por unidad de espacio y, por lo tanto, menores costos de alquiler.

¡Pero más importante es la ganancia de velocidad! ¡Ahora con 1U podemos dar más de 100G! Y esto es en el contexto de una situación en la que algunos grandes proyectos rusos llaman "logro" el regreso de 40G con 2U. ¡Tendríamos sus problemas!

Tenga en cuenta que la generación de tarjetas de red que solo pueden funcionar en 10G, todavía la usamos. Este equipo funciona de forma estable y nos resulta perfectamente familiar, por lo que no lo tiramos, sino que le encontramos una nueva aplicación. Instalamos estos componentes en servidores de almacenamiento de video, para los cuales una o dos interfaces 1G claramente no son suficientes para un funcionamiento efectivo, aquí las tarjetas 10G resultaron ser relevantes.

Sistemas de almacenamientocrecer también. En los últimos cinco años, han cambiado de doce unidades de disco (12x HDD 2U) a treinta y seis unidades de disco (36x HDD 4U). Algunas personas tienen miedo de utilizar "carcasas" tan espaciosas, porque en caso de falla de uno de estos chasis, puede haber una amenaza para la productividad, ¡e incluso para la capacidad de trabajo! - para todo el sistema. Pero esto no sucederá con nosotros: hemos proporcionado respaldo a nivel de copias de datos distribuidas geográficamente. Distribuimos el chasis a diferentes centros de datos, usamos tres en total, y esto elimina la aparición de problemas tanto en caso de fallas del chasis como cuando la plataforma se cae.

Por supuesto, este enfoque hizo que el hardware RAID fuera redundante, lo que abandonamos. Al eliminar la redundancia, aumentamos simultáneamente la confiabilidad del sistema, simplificando la solución y eliminando uno de los puntos potenciales de falla. Recuerde que nuestros sistemas de almacenamiento son "de fabricación propia". Fuimos por esto completamente deliberadamente y el resultado fue completamente satisfactorio para nosotros. Hemos cambiado

los centros de datos varias veces durante los últimos cinco años. Desde la redacción del artículo anterior, no hemos cambiado solo un centro de datos, DataLine, el resto requirió reemplazo a medida que nuestra infraestructura se desarrolló. Se planificaron todos los traslados entre sitios.

Hace dos años, migramos dentro de MMTS-9, mudándonos a un sitio con una reparación de alta calidad, un buen sistema de enfriamiento, una fuente de alimentación estable y sin polvo, que solía depositarse en capas gruesas en todas las superficies, y también obstruir abundantemente el interior de nuestros equipos. Opte por un servicio de calidad y libre de polvo. - se convirtió en el motivo de nuestra mudanza.

Casi siempre, “un movimiento equivale a dos incendios”, pero los problemas de la migración son diferentes cada vez. Esta vez, la principal dificultad de moverse dentro de un centro de datos fue "proporcionada" por las conexiones ópticas cruzadas: su abundancia entre pisos sin que los operadores de telecomunicaciones las combinen en una sola conexión cruzada. El proceso de actualización y redireccionamiento de los cruces (con la ayuda de los ingenieros de MMTS-9) fue, quizás, la etapa más difícil de la migración.

La segunda migración tuvo lugar hace un año, en 2019 pasamos de un centro de datos no tan bueno a O2xygen. Las razones del cambio fueron similares a las discutidas anteriormente, pero se complementaron con el problema de la falta de atractivo del centro de datos original para los operadores de telecomunicaciones: muchos proveedores tuvieron que "ponerse al día" hasta este punto por su cuenta.

La migración de 13 racks a un sitio de alta calidad en MMTS-9 hizo posible desarrollar esta ubicación no solo como operador (un par de racks y operadores de "reenvío"), sino también para utilizarlo como uno de los principales. Esto simplificó un poco la migración desde un centro de datos no muy bueno: trasladamos la mayor parte del equipo a otro sitio y O2xygen asumió el papel de desarrollo, enviando 5 racks con equipos allí.

Hoy en día, O2xygen ya es una plataforma completa, donde los operadores que necesitamos han “venido” y nuevos continúan conectándose. Para los operadores, O2xygen también resultó atractivo en términos de desarrollo estratégico.

Definitivamente pasamos la fase principal de la mudanza de la noche a la mañana, y al migrar dentro de MMTS-9 y a O2xygen, nos adherimos a esta regla. Hacemos hincapié en que nos adherimos estrictamente a la regla "mudarse en una noche" independientemente del número de estantes. Incluso hubo un precedente cuando movimos 20 estantes y lo hicimos en una noche también. La migración es un proceso bastante simple que requiere precisión y consistencia, pero aquí hay algunos trucos, tanto en el proceso de preparación, como al mudarse y al implementar en una nueva ubicación. Estamos listos para informarle sobre la migración en detalle si está interesado.

resultadosNos gustan los planes de desarrollo quinquenales. Hemos completado la construcción de una nueva infraestructura resistente en tres centros de datos. Hemos aumentado drásticamente la densidad de la entrega de tráfico: si recientemente nos regocijamos con 40-80G con 2U, ahora es normal que demos 100G con 1U. Ahora percibimos un terabit de tráfico como algo común. Estamos preparados para seguir desarrollando nuestra infraestructura, que resultó ser flexible y escalable.

Pregunta:¿Qué les cuento en los siguientes textos, queridos lectores? ¿Por qué empezamos a construir sistemas de almacenamiento caseros? ¿Sobre el núcleo de la red y sus características? ¿Sobre los trucos y complejidades de la migración entre centros de datos? ¿Acerca de optimizar las decisiones de emisión mediante la selección de componentes y el ajuste de parámetros? ¿De crear soluciones sostenibles gracias a la redundancia múltiple y la escalabilidad horizontal dentro del centro de datos, que se implementan en una estructura de tres centros de datos?

Autor: Petr Vinogradov - Director técnico de Uma.TechHámsters

Cómo desarrolló la infraestructura Uma.Tech

More articles: