Un poco sobre SMART y utilidades de monitoreo

Hay mucha información en la red sobre SMART y valores de atributos. Pero no me he encontrado con una mención de varios puntos importantes que conozco de personas involucradas en el estudio de los medios.



Cuando volví a contarle a un amigo por qué no se debe confiar incondicionalmente en las lecturas SMART y por qué es mejor no usar el clásico “monitoreo SMART” todo el tiempo, se me ocurrió la idea de escribir las palabras habladas en forma de un conjunto de tesis con explicaciones. Para proporcionar enlaces, en lugar de volver a contar cada vez. Y para familiarizar a un público amplio.



1) Los programas para el monitoreo automático de atributos SMART deben usarse con mucho cuidado.



Lo que conoce como atributos SMART no se almacena en el estante, sino que se genera en el momento en que los solicita. Se calculan en función de las estadísticas internas acumuladas y utilizadas por el firmware del variador durante el funcionamiento.



El dispositivo no necesita algunos de estos datos para proporcionar la funcionalidad básica. Y no se almacena, sino que se genera cada vez que se requiere. Por lo tanto, cuando se produce una solicitud de atributos SMART, el firmware inicia una gran cantidad de procesos necesarios para recuperar los datos faltantes.



Pero estos procesos son poco compatibles con los procedimientos realizados cuando la unidad está cargada con operaciones de lectura y escritura.



En un mundo ideal, esto no debería generar ningún problema. Pero en realidad, la gente común escribe firmware para discos duros. Que pueden estar mal y están mal. Por lo tanto, si consulta los atributos SMART mientras el dispositivo realiza operaciones de lectura / escritura de forma activa, las posibilidades de que algo salga mal aumentan considerablemente. Por ejemplo, los datos de un búfer de lectura o escritura de un usuario se dañarán.



La afirmación sobre el aumento de riesgos no es una conclusión teórica, sino una observación práctica. Por ejemplo, hay un error conocido que tuvo lugar en el firmware del Samsung 103UI HDD, donde los datos del usuario se dañaron durante la ejecución de una solicitud de atributos SMART.



Por lo tanto, no configure la verificación automática de atributos SMART. A menos que esté seguro de que el comando Flush Cache se emite antes. O, si no puede prescindir de él, configure la ejecución de la comprobación lo menos posible. En muchos programas de monitoreo, el tiempo predeterminado entre exploraciones es de aproximadamente 10 minutos. Es demasiado común. De todos modos, tales comprobaciones no son una panacea para fallas inesperadas del disco (una panacea es solo la redundancia). Una vez al día, creo que es suficiente.



La solicitud de temperatura no da lugar al inicio de los procesos de cálculo de atributos y se puede realizar con frecuencia. Porque si se implementa correctamente, esto se hace a través del protocolo SCT. Solo lo que ya se conoce se da a través de SCT. Estos datos se actualizan automáticamente en segundo plano.



2) Los datos de atributos SMART a menudo no son confiables.



El firmware del disco duro le muestra lo que considera adecuado, no lo que realmente está sucediendo. El ejemplo más obvio es el quinto atributo, el número de sectores reasignados. Es bien sabido por los especialistas en recuperación de datos que un disco duro puede mostrar cero realokates en el quinto atributo, a pesar de que existen y siguen apareciendo.



Le hice una pregunta a un especialista que estudia discos duros y examina su firmware. Pregunté por el principio por el cual el firmware del dispositivo decide que ahora es necesario ocultar el hecho de reasignar sectores, y ahora puedes hablar de ello a través de los atributos SMART.



Respondió que no existe una regla general de que los dispositivos muestren u oculten la imagen real. Y la lógica de los programadores que escriben firmware de disco duro a veces parece muy extraña. Al estudiar el firmware de diferentes modelos, vio que a menudo la decisión de "ocultar o mostrar" se toma sobre la base de un conjunto de parámetros, que generalmente no son claros sobre cómo se relacionan entre sí y con el recurso restante del disco duro.



3) La interpretación de las métricas SMART es específica del proveedor.



Por ejemplo, en Seagates, no debe prestar atención a los valores brutos "malos" de los atributos 1 y 7, mientras que el resto son normales. En discos de este fabricante, sus valores absolutos pueden aumentar durante el uso normal.



imagen



Para evaluar la condición y el recurso residual del disco duro, en primer lugar, se recomienda prestar atención a los parámetros 5, 196, 197, 198. Además, tiene sentido centrarse en los valores absolutos sin procesar (sin procesar) y no en los dados. La conversión de atributos se puede realizar de formas no obvias, que son diferentes en diferentes algoritmos y firmware.



En general, entre los especialistas en medios, cuando hablan del valor de un atributo, suele ser el valor absoluto lo que se quiere decir.



All Articles