Riesgos y advertencias al aplicar el método de componentes principales a problemas de aprendizaje supervisado

La traducción del artículo se preparó antes del inicio del curso básico sobre aprendizaje automático .








El espacio de alta dimensión y su maldición



La maldición de la dimensionalidad es un problema grave cuando se trabaja con conjuntos de datos reales, que tienden a ser multidimensionales. A medida que aumenta la dimensión del espacio de características, el número de configuraciones puede crecer exponencialmente y, como resultado, el número de configuraciones cubiertas por la observación disminuye.



En tal caso, el análisis de componentes principales (PCA) desempeñará un papel importante, reduciendo efectivamente el tamaño de los datos y preservando la mayor variación posible en el conjunto de datos.



Echemos un vistazo rápido a la esencia del análisis de componentes principales antes de sumergirnos en el problema.



Método de componentes principales - definición



La idea principal detrás del análisis de componentes principales es reducir la dimensión de un conjunto de datos que se compone de una gran cantidad de variables interrelacionadas, mientras se mantiene la máxima diversidad que está presente en el conjunto de datos.



Defina una matriz simétrica A ,







donde X es una matriz mxn de variables independientes, donde m es el número de columnas yn es el número de puntos de datos. La matriz A se puede descomponer de la siguiente manera:







donde D es la matriz diagonal y E es la matriz de vectores propios de A , dispuestos en columnas.



Componentes principales XSon los autovectores XX T , lo que significa que la dirección de los autovectores / componentes principales depende de la variación de la variable independiente (X) .



¿Por qué la aplicación imprudente del análisis de componentes principales es la pesadilla de los problemas de aprendizaje supervisado?



La literatura a menudo menciona el uso del análisis de componentes principales en regresión, así como en problemas de multicolinealidad. Sin embargo, junto con el uso de la regresión en los componentes principales, hubo muchos conceptos erróneos sobre la explicabilidad de la variable de respuesta por componentes principales y el orden de su importancia.



Un error común, que se ha encontrado varias veces en varios artículos y libros, es que en un entorno de aprendizaje supervisado con regresión de componentes principales, los componentes principales de la variable independiente con valores propios pequeños no desempeñarán un papel importante en la explicación de la variable de respuesta, lo que nos lleva a el propósito de este artículo. La idea es que los componentes con valores propios pequeños pueden ser tan importantes, o incluso mucho más importantes, que los componentes básicos con valores propios grandes para explicar la variable de respuesta.



A continuación, enumeraré algunos ejemplos de publicaciones que mencioné:



[1]. Mansfield et al. (1977, p. 38) sugieren que si solo se eliminan los componentes de baja varianza, la regresión no pierde mucho poder predictivo.

[2]. En Ganst y Mason (1980), se dedican 12 páginas a la regresión de componentes principales, y gran parte de la discusión sugiere que la eliminación de componentes principales se basa únicamente en sus variaciones. (págs. 327–328).

[3]. Mosteller y Türki (1977, págs. 397-398) también argumentan que es poco probable que los componentes de baja varianza sean importantes en la regresión, evidentemente porque la naturaleza es "engañosa" pero no "uniforme" .

[4]. Hawking (1976, p. 31) es aún más restrictivo al definir la regla de preservación de los componentes principales en la regresión basada en la varianza.



Explicación y comprensión teóricas



Primero, obtengamos la justificación matemática correcta para la hipótesis anterior, y luego démos una pequeña explicación para una mejor comprensión usando visualización y modelado geométricos.



Suponga que

Y es la variable de respuesta,

X es la Matriz de espacio de características

Z es la versión estandarizada X



Seaλλ>.λpson valores propios de Z T Z (matriz de correlación) y V - vectores propios correspondientes, entonces W = ZV , columnas en W se representan los principales componentes Z . El método estándar utilizado en la regresión de componentes principales es hacer una regresión de los primeros m componentes principales en Y , y el problema se puede representar mediante el teorema siguiente y su explicación [2].



Teorema:



Dejar que W = (W $ ₁ $, ..., WP) - vectores propios X . Ahora considere el modelo de regresión:







si el verdadero vector de coeficientes de regresión β es codireccional con el j-ésimo vector propio Z T Z , entonces en la regresión de Y a W, el j- ésimo componente principal Wⱼ contribuirá al aprendizaje, mientras que los restantes no contribuirán en principio ...



Prueba : Deje el V = (V₁, ..., Vp) - matriz de los vectores propios de la Z T Z . Entonces







Desde , donde son los coeficientes de regresión de la expresión.



Si βes codireccional con el j -ésimo vector propio Vⱼ , entonces Vⱼ = aβ , donde a es un valor escalar distinto de cero. Por lo tanto, θj = Vⱼᵀβ = aβᵀβ y θᴋ = Vᴋᵀ β = 0, donde k ≠ j . Así, el coeficiente de regresión θᴋ correspondiente a Wᴋ es cero, para k ≠ j , respectivamente,







dado que la variable Wᴋ no reduce la suma de cuadrados, si su coeficiente de regresión es 0, entonces Wj traerá la contribución principal, mientras que el resto de los componentes principales no harán ninguna contribución.



Significado y modelado geométrico



Ahora simulemos y obtengamos una representación geométrica de los cálculos matemáticos anteriores. La explicación se ilustra modelando un espacio de características bidimensional (X) y una variable de respuesta para que la hipótesis se pueda entender fácilmente visualmente.





Figura 1: Gráficos unidimensionales y bidimensionales para las variables consideradas X1 y X2



En la primera etapa de modelado, el espacio de características se modeló utilizando una distribución normal multivariada con una correlación muy alta entre las variables y los componentes principales.





Figura 2: Correlación del mapa de calor para PC1 y PC2 (componentes principales)



Es muy claro en el gráfico que no existe correlación entre los componentes principales. En el segundo paso, los valores de la variable de respuesta Y se modelan de modo que la dirección del coeficiente Y de los componentes principales coincida con la dirección del segundo componente principal.







Después de recibir la variable de respuesta, la matriz de correlación se verá así.





Figura 3: Mapa de calor para la variable Y y PC1 y PC2.



El gráfico muestra claramente que la correlación entre Y y PC2 es mayor que entre Y y PC1 , lo que confirma nuestra hipótesis.





Figura 4: Variación del espacio de funciones explicada por PC1 y PC2.



Dado que la figura muestra que PC1explica el 95% de la varianza de X , luego, de acuerdo con la lógica descrita anteriormente, debemos ignorar completamente el PC2 en la regresión.



¡Así que sigamos y veamos qué pasa!





Figura 5. Resultado de la regresión con Y y PC1.



Así , , igual a 0 , dijo que a pesar de que PC1 da el 95% de la varianza X , todavía no explica la variable de respuesta.



Ahora hagamos lo mismo con PC2 , que explica solo el 5% de la varianza de X , y veamos qué sucede.





Figura 6: Resultado de la regresión con Y y PC2.



Yuhu! Basta con mirar a lo que ocurrió: el componente principal que explica el 5% de X varianza dio 72% de la de Y varianza . También hay ejemplos reales que apoyan tales situaciones:



[1] Smith y Campbell (1980) dieron un ejemplo de ingeniería química, donde había 9 variables regresivas, y cuando la varianza del octavo componente principal era 0.06% de la varianza total, que no sería tomado en cuenta debido a la lógica anterior.

[2] Un segundo ejemplo fue proporcionado por Kung y Sharif (1980). En un estudio de predicción de la fecha de inicio de los monzones utilizando diez variables meteorológicas, solo los componentes octavo, segundo y décimo fueron significativos. Este ejemplo muestra que incluso el componente principal con el valor propio más pequeño será el tercero más significativo en términos de explicar la variabilidad de la variable de respuesta.



Salida



Los ejemplos anteriores muestran que es inapropiado eliminar componentes principales con valores propios pequeños, ya que afectan solo la explicabilidad en el espacio de características, pero no la variable de respuesta. Por lo tanto, es necesario conservar todos los componentes en las técnicas de reducción de dimensiones supervisadas, como la regresión de mínimos cuadrados parciales y la regresión de ángulo mínimo, de las que hablaremos en artículos futuros.



Fuentes
[1] Jolliffe, Ian T. “A Note on the Use of Principal Components in Regression.” Journal of the Royal Statistical Society. Series C (Applied Statistics), vol. 31, no. 3, 1982, pp. 300–303. JSTOR, www.jstor.org/stable/2348005.

[2] Hadi, Ali S., and Robert F. Ling. “Some Cautionary Notes on the Use of Principal Components Regression.” The American Statistician, vol. 52, no. 1, 1998, pp. 15–19. JSTOR, www.jstor.org/stable/2685559.

[3] HAWKINS, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Appl. Statist., 22, 275–286

[4] MANSFIELD, E. R., WEBSTER, J. T. and GUNST, R. F. (1977). An analytic variable selection technique for principal component regression. Appl. Statist., 26, 34–40.

[5] MOSTELLER, F. and TUKEY, J. W. (1977). Data Analysis and Regression: A Second Course in Statistics. Reading, Mass.: Addison-Wesley

[6] GUNST, R. F. and MASON, R. L. (1980). Regression Analysis and its Application: A Data-oriented Approach. New York: Marcel Dekker.

[7] JEFFERS, J. N. R. (1967). Two case studies in the application of principal component analysis. Appl. Statist., 16, 225- 236. (1981). Investigation of alternative regressions: some practical examples. The Statistician, 30, 79–88.

[8] KENDALL, M. G. (1957). A Course in Multivariate Analysis. London: Griffin.






Obtenga más información sobre el curso “Aprendizaje automático. Curso básico ” , además de asistir a una lección gratuita , puede inscribirse en un seminario web gratuito en este enlace .






Lee mas:



Entropía: cómo los árboles de decisión toman decisiones



All Articles