Las 3 paradojas estadísticas principales en la ciencia de datos

La traducción se preparó como parte del curso " Machine Learning. Professional ".



También invitamos a todos a participar en el intensivo en línea de dos días "Implementar modelos ML: desde el código sucio en una computadora portátil hasta un servicio en funcionamiento".






Los errores de observación y las diferencias de subgrupos causan paradojas estadísticas

Los errores de observación y las diferencias de subgrupos pueden conducir fácilmente a paradojas estadísticas en cualquier aplicación de ciencia de datos. Ignorar estos elementos puede desacreditar por completo las conclusiones de nuestro análisis.





De hecho, no es raro ver fenómenos tan asombrosos como tendencias de subgrupos que se revierten por completo en los datos agregados. En este artículo, echaremos un vistazo a las 3 paradojas estadísticas más comunes que se encuentran en la ciencia de datos.





1. La paradoja de Burkson

El primer ejemplo sorprendente es la correlación inversa entre la gravedad de la enfermedad COVID-19 y el tabaquismo (ver, por ejemplo, la revisión Wenzel 2020 de la Comisión Europea ). El tabaquismo es un factor de riesgo bien conocido de enfermedad respiratoria, entonces, ¿cómo explica esta controversia?





Griffith 2020, Nature, , (Collider Bias), . , , : «».





: «» — - « », « COVID-19». ( )





«» . , COVID-19 . , , , .





. , ( -).





: «», COVID-19! ( )





COVID-19 , , , .





— — ! , .





  1. COVID-19 . , 1, .





  2. (- , , ), - .





  3. , COVID-19,   ! , COVID-19 - , (, - , , ).





Berkson 1946, , , .





2. ()

. - - (, , ), , .





, , , , , . , ( — . ), : , !





, . : « ».





: « » — «n » «n ». ( )





. , , , , .





. , , (.. ).





: « », ! ( )





, , , .





  • , , .





  • , , , .





3.

— , - , , . .





1975 , , , .





  • , , ,   .





  • , , .





, , : A B.





  • 100 : 80 A, 68 (85%), 20 , 12 (60%).





  • 100 : 30 , 28 (93%), 70 B, 46 (66%).





: - , ! ( )





.





: , . ( )





, , . , ( A: 80–30, B: 20–70). , B ( ), ( ). , .





, -, data science. .






"Machine Learning. Professional"





- « ML : »








All Articles