Selección de funciones en el aprendizaje automático

¡Hola, Habr!

En Reksoft hemos traducido al ruso el artículo Selección de funciones en el aprendizaje automático . Esperamos que sea de utilidad para todos los que no son indiferentes al tema.

En el mundo real, los datos no siempre son tan limpios como a veces piensan los clientes comerciales. Es por eso que la minería de datos y la disputa de datos están en demanda. Ayuda a identificar los valores y patrones faltantes en los datos estructurados de consulta que no pueden ser identificados por humanos. El aprendizaje automático es útil para encontrar y usar estos patrones para predecir resultados utilizando conexiones de datos descubiertas.

Para comprender cualquier algoritmo, debe observar todas las variables en los datos y averiguar qué representan esas variables. Esto es fundamental porque la justificación de los resultados se basa en la comprensión de los datos. Si sus datos contienen 5 o incluso 50 variables, puede examinarlas todas. ¿Y si hay 200 de ellos? Entonces simplemente no habrá tiempo suficiente para examinar cada variable individual. Además, algunos algoritmos no funcionan para datos categóricos, y luego todas las columnas categóricas deberán cuantificarse (pueden parecer cuantitativas, pero las métricas mostrarán que son categóricas) para poder agregarlas al modelo. Por tanto, el número de variables aumenta y hay unas 500. ¿Qué hacer ahora? Podría pensar que la reducción de la dimensionalidad es la respuesta. Los algoritmos de reducción de dimensiones reducen el número de parámetrospero afectan negativamente a la interpretabilidad. ¿Qué pasa si hay otras técnicas que eliminan los rasgos y hacen que el resto sea fácil de entender e interpretar?

Dependiendo de si el análisis se basa en regresión o clasificación, los algoritmos de selección de características pueden diferir, pero la idea principal de su implementación sigue siendo la misma.

Variables fuertemente correlacionadas

Las variables que están altamente correlacionadas entre sí proporcionan al modelo la misma información, por lo que no es necesario utilizarlas todas para el análisis. Por ejemplo, si el conjunto de datos contiene los atributos "Tiempo en línea" y "Tráfico utilizado", podemos asumir que estarán algo correlacionados, y veremos una fuerte correlación incluso si elegimos una muestra de datos no sesgada. En este caso, solo se necesita una de estas variables en el modelo. Si se utilizan ambos, el modelo estará sobreajustado y sesgado en contra de una característica en particular.

Valores p

, , — . p-, . , p-, - , , , , (target).

— , . , , , . , , . . p-, . , , ( ).

, . . ( ), . p- . .

RFE / . , « » , ; ( 200-400), , - , . RFE . . . , RFE , ( , , , ).

, ( p-) ( , ). , , Random Forest, LightGBM XG Boost, , « ». , .

(bias) (variance). , (overfit) . , . , . ! :

L1 — : (.. ). , , , (.. , ).

L2 — Ridge: Ridge . Ridge , .

Ridge , , , Elastic-Net.

, : . — , , , .

! !




All Articles