Prueba de la hipótesis de igualdad de medias con varianza desigual en R

(asumiendo una distribución normal)

El problema de determinar la igualdad de medias bajo la condición de varianzas iguales es un problema clásico de la estadística matemática, que se resuelve en las escuelas técnicas y universidades. Sin embargo, la EM como ciencia es muy similar a un pantano: cuando intentas saltar hacia un lado desde un bache de un problema resuelto de manera clásica, puedes empantanarte o ahogarte por completo.





El problema que estamos considerando es uno de estos. De hecho, los matemáticos preocupados ya han desarrollado alrededor de dos docenas de pruebas estadísticas diferentes para resolver este tipo de problemas, lo que plantea la pregunta de la categoría de "cuál usar".





Un estudio preliminar (el texto del estudio está disponible en GitHub ) mostró que, dependiendo de la combinación específica de valores medios, varianza y los detalles del enunciado del problema, casi cualquiera de las pruebas consideradas en el artículo "Cavus, M. , Yazici, B. Prueba de la igualdad de medias de grupos distribuidos e independientes normales bajo varianzas desiguales por paquete doex / The R Journal. 2020. No. 2 (12). P. 134-155 " .





Para solucionar este problema, se desarrolló un procedimiento que permite determinar la mejor prueba estadística para cada caso específico. Se demostrará utilizando el ejemplo de la base de datos GrowthDJ que contiene datos sobre el crecimiento económico. Probemos el supuesto sobre la igualdad de los valores medios del crecimiento económico (variable pibcrecimiento) en función de la disponibilidad de datos de alta calidad en los países (variable inter )





Las primeras etapas del estudio son verificar la normalidad de las distribuciones y encontrar estadísticas descriptivas:





library("tibble")







library("AER")







library("WRS2")







library("doex")







data("GrowthDJ")







XX<-na.omit(GrowthDJ)







library("psych")







describeBy(XX$gdpgrowth, XX$inter)







shapiro.test(XX[XX$inter=='yes',6])







shapiro.test(XX[XX$inter=='no',6])







Conseguimos que nuestros datos se distribuyan normalmente, lo que significa que las pruebas se pueden aplicar





Método de verificación

  1. Establecer dos medias y dos valores de varianza (según los datos disponibles por grupo)





  2. ( 70 ). – № 1 № 1, – № 1 № 2, – № 2 № 2.





  3. 0.01. p- 0.01, , 0.01 – . . p- 0.01, , 0.01 – . 100 , .





( , ):





  • accuracy ( );





  • selectivity ( , );





  • precision ( );





  • recall ( , );





  • FOR ( );





  • F- ( precision recall, ).





( .R )









, :





  • , AF FA- ( , F-score





  • - (.. ), RGF-





  • - (.. ), 8 (AF,BA,CF,FA,JF,MBF,SS,WA)





  • , 8





  • , RGF-





- AF- (Approximate F-test)





0.0003 -








All Articles