👦🏽 🔬 🍥 Solo agrega un poco de sal 🥝 💠 🛌

Cómo migramos más de 700 servidores a Salt

Durante mucho tiempo estuvimos satisfechos con una configuración compleja y engorrosa con 2 repositorios Git, donde parte de los datos se almacena en MySQL y la otra parte es Puppet 3.8. Pero nuestras necesidades crecieron gradualmente, la cantidad de servicios aumentó y el rendimiento de la configuración disminuyó. Luego nos propusimos la tarea de mejorar la configuración, optimizando todos los datos y herramientas disponibles.

Nuestro equipo ha seleccionado una configuración adecuada para ellos en 3 etapas. Compartimos nuestra experiencia de optimización de Salt, cómo aplicar y personalizar sin esfuerzo extra.

Nota: En Habré encontramos excelentes artículos de nuestros colegas, por lo que no nos detendremos en los temas ya cubiertos. Recomendamos encarecidamente leer:

Qué tiene de bueno SaltStack y qué tareas se pueden resolver con él : un artículo deptsecurity, Tecnologías Positivas.

Instalación, lanzamiento, primeros comandos y familiaridad con las funciones : artículo del autorzerghack007...

Salt es un sistema de gestión de configuración y ejecución remota. Un marco de infraestructura de código abierto escrito en Python.

¿Por qué Salt?

Salt, Ansible, Puppet y Chef son opciones decentes para elegir una herramienta de administración de configuración. Elegimos Salt porque priorizamos los siguientes beneficios:

Modularidad, disponibilidad de API en la versión gratuita, a diferencia de Ansible.
Python, lo que significa que puede comprender fácilmente cualquier componente y escribir usted mismo la funcionalidad que falta.
Alto rendimiento y escalabilidad. El asistente establece una conexión permanente con los minions utilizando ZeroMQ para obtener el máximo rendimiento.
Los reactores son una especie de disparadores que se ejecutan cuando aparece un determinado mensaje en el bus de mensajes.
La orquestación es la capacidad de construir relaciones complejas y realizar acciones en una secuencia específica, por ejemplo, configurar el equilibrador de carga primero y luego el clúster del servidor web.
Puppet y Chef están escritos en Ruby. Nuestro equipo no tiene un especialista competente para trabajar con este lenguaje de programación, pero Python es bien conocido y lo usamos con frecuencia.
Para aquellos equipos que anteriormente usaron Ansible, la capacidad de usar los libros de jugadas de Ansible será relevante. Esto le permitirá migrar a Salt sin dolor.

Tenga en cuenta:

Hemos estado usando Salt durante casi dos años y le recomendamos que preste atención a los siguientes puntos:

Salt, , . , . , SaltStack .
SaltStack . , . : , . , cmd.run file.managed, .

Grafana .

, , , .

. .

Dado:

Entonces, nuestra configuración inicial es:

2 repositorios de Git (uno es para ingenieros y administradores; el segundo es para servidores muy críticos, disponible solo para administradores);
un dato en MySQL;
la otra parte, en Puppet 3.8 (exagerada con la herencia, prácticamente sin usar Hiera , almacenamiento de valores clave).

Objetivo: migrar el sistema de gestión de la configuración a Salt, aumentar su rendimiento, hacer que la gestión del servidor sea más cómoda y comprensible.

Solución: En

primer lugar, comenzamos a migrar la configuración original a Salt desde servidores de servicios no críticos separados, al mismo tiempo que nos deshacemos del código obsoleto.

Luego preparamos la configuración para servidores VDS. En nuestro caso, se trata de perfiles para servidores de servicio, servidores de desarrollo y servidores cliente.

El principal problema con la transición de Puppet a Salt fue el sistema operativo desactualizado (en 2018, estaban Ubuntu 12.04 y 14.04). Antes de la migración, era necesario actualizar el sistema operativo y no afectar el funcionamiento del servicio / servidor. De lo contrario, todo fue bastante fácil: los colegas se involucraron gradualmente en el proceso.

Entre las principales ventajas, el equipo señaló, por ejemplo, una sintaxis más comprensible. Mis colegas y yo acordamos usar los consejos de las mejores prácticas de Salt , pero los complementamos con nuestras propias recomendaciones que reflejan nuestras particularidades.

El equipo también evaluó los métodos de entrega de la configuración: empujar (el maestro "empuja") y tirar (el minion "tira"). El modo sin maestro ayuda si necesita probar algo simple y al mismo tiempo no meterse con el repositorio de Git. Ejecutar un minion en modo sin maestro le permite usar la administración de configuración de Salt en una máquina sin tener que ir al maestro de Salt en otra máquina. La configuración es completamente local.

Hasta 300 minions con tal solución, no tuvimos problemas serios. La configuración maestra en ese momento es un VDS con 6 núcleos y 4 GB de memoria.

Sin embargo, tan pronto como el número de minions alcanzó los 300, el promedio de carga (carga promedio del sistema) aumentó a 3.5-4, y el sistema se ralentizó mucho. Anteriormente, el comando state.apply tardaba entre 30 y 40 segundos, ¡pero ahora tarda 18 minutos!

Ese resultado, por supuesto, fue inaceptable para nosotros. Además, expertos de otras empresas han escrito sobre historias de éxito con 10.000 minions. Empezamos a averiguar cuál era el problema.

Las observaciones del maestro no dieron una respuesta inequívoca a la pregunta. Había suficiente memoria, la red no estaba cargada, el disco se utilizó en un 10%. Pensamos que la culpa era de GitLab, pero tampoco la tenía.

Parece que no había suficiente potencia del procesador: al agregar núcleos, el promedio de carga disminuyó naturalmente y se ejecutó el comando state.apply, aunque más rápido, unos 5-7 minutos, pero no tan rápido como queríamos.

Agregar trabajadores resolvió parcialmente el problema, pero aumentó significativamente el consumo de memoria.

Entonces decidimos optimizar la configuración en sí.

Nivel 1

Dado que los pilares son un almacenamiento protegido, el acceso al almacenamiento está asociado con las operaciones de cifrado, y debe pagar el acceso a él con el tiempo de la CPU. Por lo tanto, redujimos el número de llamadas a los pilares: los mismos datos se tomaron una sola vez; si se necesitaban en otro lugar, el acceso a ellos se realizaba mediante la importación ({% - from 'defaults / pillar.sls' import profile%}).

La configuración se aplica una vez por hora, el tiempo de ejecución se elige al azar. Después de analizar cuántas tareas se realizan por minuto y cuán uniformemente se distribuyen en el transcurso de una hora, descubrimos: al comienzo de la hora, del 1 al 8, pasa la mayor cantidad de tareas, y al minuto 34, ¡ninguna! Escribimos un corredor que pasaba por todos los minions una vez a la semana y distribuía las tareas de manera uniforme. Gracias a este enfoque, la carga se volvió uniforme, sin saltos.

Hubo sugerencias para pasar a un servidor de hierro, pero en ese momento no estaba allí y ... resolvimos el problema de una manera diferente. Agregamos algo de memoria y colocamos toda la caché en ella. Al observar el tablero de Grafana, primero pensamos que el salt-master no estaba funcionando, ya que el promedio de carga cayó a 0.5. Verificamos el tiempo de ejecución de state.apply y también nos sorprendió: 20-30 segundos. ¡Fue una victoria!

Etapa 2

Seis meses después, el número de minions aumentó a 650 y ... el rendimiento volvió a degradarse. El gráfico de carga promedio crece con el número de minions.

Lo primero que hicimos: habilitamos la caché de pilar, establecimos la vida útil en 1 hora (pillar_cache_ttl: 3600). Nos dimos cuenta de que ahora nuestras confirmaciones no serán instantáneas y tendremos que esperar a que el maestro actualice la caché.

Como no queríamos esperar en absoluto, hicimos ganchos en GitLab. Esto permitió en la confirmación para indicar para qué minion necesitas actualizar la caché. La caché de Pillars redujo significativamente la carga y redujo el tiempo para aplicar la configuración.

Etapa 3

Meditamos un poco sobre los registros de depuración y presentamos una hipótesis: ¿qué pasa si aumentamos el intervalo de actualización para el backend del archivo y el caché de la lista de archivos (gitfs_update_interval, fileserver_list_cache_time)? La actualización se realizaba una vez por minuto y, a veces, tardaba hasta 15 segundos. Al aumentar el intervalo de actualización de 1 minuto a 10 minutos, ¡volvimos a ganar en velocidad! El indicador LA disminuyó de 1,5 a 0,5. El tiempo para aplicar la configuración se redujo a los 20 segundos deseados. A pesar de que LA volvió a crecer después de algún tiempo, la velocidad de ejecución de la aplicación estatal no cambió significativamente. Se agregó una actualización forzada de estos cachés a los ganchos en git push.

Agregamos análisis a Elasticsearch: reescribimos el elasticsearch_return incorporado y ahora podemos monitorear los resultados de state.apply (tiempo de ejecución promedio, estado más largo y número de errores).

resultados

Ahora estamos completamente satisfechos con el desempeño de Salt. Hay planes para duplicar el número de minions. Todavía es difícil decir cómo nuestro maestro hará frente a tal carga. Quizás recurramos a la escala horizontal o encontremos un parámetro mágico. ¡El tiempo dirá!

Si estás usando gitfs como tu backend, ¡dale un cinco! Lo más probable es que estés pasando por los mismos problemas que nosotros. Así que estaremos encantados de discutir este tema en los comentarios.

Solo agrega un poco de sal