Certificación de empleados del centro de datos: cómo y por qué se lleva a cabo en Linxdatacenter



, Uptime Institute Management & Operations Stamp of Approval 2018 2020. 



– Linxdatacenter -, . 

Recordemos de lo que estamos hablando: el estándar de Gestión y Operaciones del instituto experto de la industria Uptime Institute evalúa la calidad de la gestión de los servicios de ingeniería de los centros de datos y tiene como objetivo reducir el número de fallos debidos al factor humano. 



Surgió de un análisis de 6.000 episodios de interrupción del centro de datos durante 20 años de observación de la industria y es parte (uno de tres) del estándar más amplio de Sostenibilidad Operativa de la industria.



Además de M&O (administración y operación), también incluye las Características del Edificio y la Ubicación del Sitio. Los problemas de gestión y operaciones del centro de datos en esta jerarquía juegan un papel importante en la sostenibilidad operativa del sitio. 



Más del 75% de todos los fallos se deben al factor humano: incluye tanto los errores directos del operador como la toma de decisiones de gestión incorrectas en la contratación de personal, los procesos de servicio del edificio, la formación y el enfoque general del trabajo. 



La formación del personal, las instrucciones de actuación en diversas situaciones y el mantenimiento de rutina reducen el número de fallos al menos 3 veces.



Certificación de madurez



Uno de los principios básicos del estándar en el que lanzamos el programa de evaluación del desempeño es: “Tener el número correcto de empleados calificados es fundamental para lograr las metas a largo plazo. Sin el número adecuado de empleados calificados y la organización correcta de su trabajo, el centro de datos no tendrá los recursos para funcionar con éxito ". 



La norma recomienda que se proporcione a usted mismo estos empleados mediante la contratación de alta calidad y el desarrollo de un enfoque integrado para el mantenimiento del centro de datos. Dicho programa consta de mantenimiento preventivo (PM), una política de limpieza, un sistema de gestión de mantenimiento (MMS) para realizar un seguimiento del trabajo y un acuerdo de nivel de servicio (SLA).



Cuanto más alto es el nivel de un centro de datos, más rápido crecen sus objetivos de rendimiento, más estrictos se vuelven los requisitos para la organización a medida que aumenta la complejidad y la granularidad de cada uno de estos elementos. 



La norma ofrece como solución un programa de formación integral para el personal, formalizado y basado en un bloque de documentación independiente. 



Solo este enfoque garantiza la coherencia en la operación y el mantenimiento de la infraestructura del centro de datos. Para citar el estándar nuevamente: "Todo el personal debe comprender las políticas, los procedimientos y los requisitos únicos del centro de datos para evitar tiempos de inactividad no planificados y responder a eventos anticipados". 



De hecho, aquí es donde se origina nuestro sistema de certificación. 



Su segundo "pilar ideológico" es ISO 22301 "Seguridad y resiliencia - Sistemas de gestión de la continuidad del negocio" - "Seguridad y resiliencia - Sistemas de gestión de la continuidad del negocio". 



Esta norma regula directamente los pasos de las empresas (en todas las áreas, no solo en TI) para asegurar la continuidad de sus actividades, independientemente de la aparición de situaciones de emergencia y condiciones externas adversas. 



Uno de sus puntos indica que la organización debe determinar las competencias necesarias de las personas que realizan un trabajo que incide en asegurar su buen funcionamiento. Y en adelante, las empresas están obligadas a asegurar las competencias de estas personas en base a una educación, formación o experiencia práctica adecuadas. 



El proceso debe mantenerse, perfeccionarse y evaluarse, conservando la información documentada adecuada como prueba de competencia.



Finalmente, el tercer "pilar" de nuestro programa es nuestra propia experiencia de varios años de trabajo constante para mejorar la coordinación y eficiencia de los servicios de ingeniería. Esta experiencia se refleja en nuestra documentación de Procedimientos de operaciones de emergencia (EOP), incluidas las calificaciones del personal. 



Los procedimientos claramente documentados y formalizados en la estructura de los procesos comerciales en el sitio de San Petersburgo permiten evaluar el nivel profesional de un empleado e identificar el cumplimiento de sus calificaciones con el puesto que ocupa o el trabajo realizado por él.



Pasar la certificación para el conocimiento de las instrucciones, escenarios para responder a situaciones de emergencia y rutinarias, la distribución de roles y áreas de responsabilidad entre los participantes en el turno de guardia, etc. es responsabilidad de los empleados. 



Tipos principales y tareas principales



¿Porqué necesitamos esto? Por un lado, sí, trabajaron de alguna manera sin certificación antes, muchos (sí, casi todos) de los colegas de la industria también lo hacen sin ella. 



Por otro lado, debe entenderse que un centro de datos es una instalación de ingeniería compleja que consta de muchos subsistemas, cuya gestión requiere las más altas calificaciones, responsabilidad y atención. 



Actualizamos constantemente los subsistemas de ingeniería y los grupos de procesos de gestión de centros de datos. Solo recientemente se han introducido los procesos de mantenimiento preventivo  de los grupos electrógenos diesel  y  análisis de la calidad del combustible suministrado  para ellos, control del nivel de  presión y "contrapresión" del aire. en salas de servidores en salas y un  conjunto de medidas para evitar la contaminación atmosférica . También se llevó a cabo una importante modernización del sistema de gestión de edificios (BMS) , se puso en funcionamiento una amplia gama de  componentes del sistema LOTO .



En el transcurso de estos trabajos, nos convenció repetidamente de que cualquier método de control de calidad produce buenos resultados solo si se formaliza y aplica de forma regular; esta es otra razón para la introducción de la certificación obligatoria.



Además, tales inspecciones ayudan a estimular el crecimiento de la eficiencia y la calidad del trabajo, determinar la necesidad de capacitación avanzada y "elevar" el nivel de conocimiento de especialistas específicos, así como organizar la colocación correcta del personal, teniendo en cuenta la nivel de sus conocimientos y habilidades profesionales.



Antes de la certificación planificada, los gerentes realizan un trabajo de consultoría preparatoria, es decir, dos semanas antes de que el personal certificado sea informado sobre los criterios de certificación, las preguntas para el examen y realicen consultas explicativas.



Todas las preguntas van acompañadas de respuestas detalladas con enlaces a reglamentos e instrucciones. 



Procedimiento en esencia



La certificación la realiza una comisión de al menos tres personas, el trámite consta de dos etapas. 



En la primera etapa, el empleado certificado se prueba en el marco de cuestionarios y pruebas. El número total de preguntas es de 60 a 70, según la especialización. Durante la certificación, se seleccionan aleatoriamente 15. Alrededor del 80% de las preguntas se relacionan directamente con la profesión, el 20% restante se relaciona con áreas de conocimiento y competencias de los colegas del centro de datos. 



Para la certificación se desarrolló un portal interno especial, que permitió automatizar y hacer del proceso de certificación un proceso registrado.







Ejemplos de preguntas para empleados de varios departamentos.  



Mecánica



Sección de mantenimiento



  1. ¿Cuándo está programado el próximo mantenimiento de los sistemas de los que es responsable?
  2. , ?
  3. SLA ? 
  4. ? (Predictive maintenance)? Predictive maintenance .
  5. ? ? ?


EOP



  1. EOP?
  2. EOP?
  3. «Water loss alarm».






«»



  1. ( ) .
  2. , .
  3. .
  4. .


« -»



  1. , ? 
  2. , ?
  3. .
  4. ?
  5. On Hold Waiting? ?


-



« , (Common Instructions, Orders)»



  1. .
  2. .
  3. .
  4. ?
  5. ( )?
  6. - ?
  7. ?


Como puede ver en los ejemplos anteriores, tenemos en cuenta las realidades actuales en las que trabajamos. En este caso, estas son preguntas a diciembre de 2020. 



La segunda etapa del procedimiento de certificación consiste en una entrevista personal de la comisión con un especialista. El supervisor directo del empleado certificado debe participar en el trabajo de la comisión de certificación. 



Los principales criterios a partir de los cuales se evalúa la competencia profesional de un empleado son el nivel de su formación, incluidas las competencias profesionales, los resultados laborales durante un período de tiempo determinado, así como el cumplimiento de los requisitos para el puesto que ocupa.



La decisión se toma mediante votación abierta por mayoría de votos.



Veredictos



Con base en los resultados de la certificación, se llega a una conclusión: 



  • corresponde al puesto ocupado; 
  • cumple, pero no completamente (se recomienda recertificar);
  • no se corresponde con el cargo que ocupa. 


En el primer caso, el empleado puede ser incluido en la reserva para un puesto superior, los términos de los acuerdos laborales con él no cambian. Este último considera la cuestión de transferir a otro trabajo que requiera calificaciones más bajas o rescindir un contrato de trabajo en virtud de la cláusula 3 de la parte 1 del art. 81 del Código del Trabajo de la Federación de Rusia. 



El cumplimiento incompleto está plagado de transferencias con el consentimiento del empleado a otro trabajo, así como la remisión a cursos de actualización (capacitación adicional).



Difícil de aprender, fácil de pelear



Un papel importante en el proceso de capacitación para el personal de operaciones del centro de datos lo desempeña el aspecto práctico: capacitación y ejercicios. 



Como ejemplo, citaremos extractos del protocolo final de los ejercicios sobre la práctica de las acciones del personal de turno y seguridad del centro de datos en San Petersburgo.  



“Cronología de los eventos



10 50 - Se produjo un incendio (imitación) en la habitación 107. Se activaron la alarma de incendio y el sistema de notificación por voz. 



10 50 - El jefe del turno de seguridad de la instalación se puso en contacto con el turno de servicio del centro de datos, les informó sobre el lugar del incendio y le encargó al oficial de seguridad que organizara la evacuación de los clientes del centro de datos.





11 07 - Un oficial de seguridad fue al centro de datos para verificar las rutas de evacuación, desbloquear las puertas en las rutas de evacuación, verificar el desbloqueo del torniquete de altura completa, organizar la evacuación de personas. El oficial de seguridad está equipado con una linterna eléctrica, una máscara de gas aislante y una radio para comunicarse.





11 07 - Llamada del responsable de seguridad del centro de datos al turno de seguridad senior de la estación de servicio de seguridad SKY-TRADE con un mensaje sobre la incidencia en el centro de datos.



11 08 - El inicio de la evacuación de personas no involucradas en la detección y localización (eliminación) del incendio de las instalaciones del centro de datos.



11 09 - Los empleados del turno de guardia del centro de datos se adelantaron para verificar los motivos de la alarma de incendio y organizar la evacuación de las personas del centro de datos.





11 11 - Los empleados del turno de trabajo del centro de datos se acercaron al lugar del supuesto incendio. Los empleados están equipados con antorchas eléctricas y máscaras de gas aislantes.





11 12 - Informe del oficial de seguridad de que todas las instalaciones están libres y las personas del centro de datos han sido evacuadas.



11 12 - Evacuación completada.





11 15 - Transferencia del sistema de alarma de incendio y notificación por voz del modo "Fuego" al modo de espera. El fin de la formación técnica contra incendios ".



Este es un informe sobre el esquema del evento del evento, que, como podemos ver, se ajusta a un lapso de tiempo de poco más de una hora. A continuación, los responsables de realizar el ejercicio indican las no conformidades identificadas y enumeran las decisiones tomadas por el equipo. 



En este caso particular, no se simuló la llamada del empleado del turno de servicio a la brigada de bomberos, por lo tanto, la puntuación es solo "4". 



Se recomienda repetir el procedimiento para una señal de incendio de acuerdo con las instrucciones y realizar ejercicios similares para cada turno de personal al menos una vez por trimestre. 



Conclusiones y planes de desarrollo



Los procesos de formalización y documentación ayudan a garantizar la historicidad (dinámica de seguimiento), así como la objetividad de las estimaciones. 



En esta etapa de desarrollo de la dirección, logramos implementar un enfoque integrado de capacitación y verificación del nivel de conocimiento del personal del centro de datos, del que dependen indicadores como la continuidad del sitio y, en última instancia, el SLA para los clientes. . 



En general, el sistema de confirmación de conocimientos y habilidades que hemos implementado es una tendencia general en el desarrollo de la dirección en el futuro. Todas las soluciones de continuidad del negocio se basan en una arquitectura de especialistas, políticas, procedimientos y procesos estrechamente alineados, así como la estructura organizativa y los recursos de la empresa. 



Y las personas de esta lista están en primer lugar.



All Articles