La idea más importante en ciencia de datos

Consejos para separar las distracciones de la información útil.



imagen



Si toma un curso introductorio sobre estadísticas, se dará cuenta de que los datos se pueden usar para encontrar inspiración o probar la teoría, pero nunca para ambos. ¿Porqué es eso?



Las personas son demasiado buenas para encontrar patrones en todo. Usted mismo determina qué patrones existen realmente y cuáles se inventan. Somos criaturas que encuentran la cara de Elvis en una papa frita. Si está tentado a equiparar patrones con conceptos, recuerde que hay tres tipos de patrones:



  • Patrones que existen tanto en su conjunto de datos como más allá.
  • Patrones que solo existen en su conjunto de datos.
  • Patrones que solo existen en tu imaginación (apofenia).


imagen



Los patrones de datos pueden existir (1) en toda la población de interés, (2) solo en una muestra o (3) solo en su cabeza.



¿Qué patrones y patrones de datos pueden ser útiles para usted? Depende de tus objetivos.



Inspiración



Si necesita pura inspiración, los datos pueden hacer maravillas. Incluso la apofenia (la tendencia humana a percibir erróneamente conexiones y significado entre cosas no relacionadas) puede hacer que su creatividad funcione al máximo. La creatividad no tiene las respuestas correctas, por lo que todo lo que tiene que hacer es mirar sus datos y jugar con ellos. Como beneficio adicional, trate de no perder demasiado tiempo (el suyo o el de los interesados).



Hechos



Cuando su gobierno quiere cobrarle impuestos, no puede dejar de prestar atención a los valores que van más allá de sus datos financieros del año. El IRS necesita tomar una decisión objetiva sobre cuánto debe y la forma principal de tomar esa decisión es analizando los datos del año pasado. En otras palabras, mire los datos y aplique la fórmula. En este caso, estamos hablando de análisis puramente descriptivos vinculados a los datos disponibles. Cualquiera de los dos primeros tipos de patrones es bueno para esto.



Análisis descriptivo vinculado a datos existentes.


(Nunca oculté mis estados financieros, pero creo que el gobierno de los Estados Unidos no estaría encantado si usara los métodos de cálculo de datos que aprendí en la escuela de posgrado para pagar impuestos estadísticamente para reemplazarlos.



Decisiones ante la incertidumbre.



A veces los hechos disponibles no coinciden con los deseados. Cuando no tiene toda la información que necesita para tomar una decisión, debe navegar por la incertidumbre, tratando de elegir un curso de acción razonable.



Esto es precisamente lo que son las estadísticas: la ciencia de cómo cambiar de opinión ante la incertidumbre. El juego se trata de saltar a lo desconocido como Ícaro ... y no ser aplastado.



Este es el principal desafío de la ciencia de datos: cómo no ser * ignorante * como resultado de la ciencia de datos.


Antes de saltar de este acantilado, es mejor esperar que los patrones que ha encontrado en su visión limitada de la realidad realmente funcionen fuera de su vista. En otras palabras, para que sea útil para usted, las plantillas deben generalizarse.



imagen


De los tres tipos de patrones, cuando se toman decisiones bajo incertidumbre, solo el primero (generalizado) es seguro. Desafortunadamente, encontrará otros tipos de patrones en sus datos: este es el gran problema en el corazón de la ciencia de datos: cómo no perder su conocimiento como resultado de la exploración de datos.



Generalización



Si crees que encontrar patrones inútiles en los datos es un privilegio puramente humano, ¡piénsalo de nuevo! Si no tiene cuidado, los automóviles pueden hacer la misma estupidez automáticamente.



El objetivo del aprendizaje automático y la inteligencia artificial es generalizar adecuadamente las nuevas situaciones.


El aprendizaje automático es un enfoque para tomar muchas decisiones similares, lo que implica una búsqueda algorítmica de patrones en sus datos y su uso para responder correctamente a datos completamente nuevos. En el aprendizaje automático y la jerga de IA, la generalización se refiere a la capacidad de su modelo para funcionar bien con datos que no ha visto antes. ¿Cuál es el punto de un modelo basado en plantillas que solo funciona bien con datos antiguos? Para hacer esto, simplemente puede usar la tabla de búsqueda. El objetivo del aprendizaje automático y la inteligencia artificial es hacer las generalizaciones correctas en situaciones nuevas.



imagen


Es por eso que el primer tipo de patrón en nuestra lista es el único que funciona bien para el aprendizaje automático. Este tipo de datos es una señal, todo lo demás es solo ruido (factores que existen solo en sus datos antiguos e interfieren con la creación de un modelo generalizable).



Señal: patrones que existen tanto en su conjunto de datos como más allá.



Ruido: patrones que solo existen en su conjunto de datos.


De hecho, obtener una solución que procese ruidos antiguos en lugar de datos nuevos es lo que se llama sobreajuste de aprendizaje automático (pronunciamos este término en el mismo tono en el que pronuncia su palabra de maldición favorita). En el aprendizaje automático, casi todo se hace para evitar el sobreajuste.



Entonces, ¿a qué tipo de * esta * muestra se refiere?



Suponga que el patrón que usted (o su computadora) ha extraído de sus datos existe más allá de su imaginación: ¿a qué categoría pertenece? ¿Es un fenómeno real que existe en la población de interés (señal) o es una característica de su conjunto de datos (ruido)? ¿Cómo determinar el tipo de patrón detectado cuando se trabaja con datos?



Si estudia todos los datos disponibles, no podrá hacerlo. Se quedará perplejo y no podrá saber si su plantilla existe en otro lugar. Toda retórica sobre la prueba de hipótesis estadísticas depende de lo inesperado, y pretender que el patrón ya conocido te sorprende es de mal gusto (de hecho, esto es piratería).



imagen



Es como ver una nube con forma de conejo y luego verificar si todas las nubes parecen conejos ... mirando la misma nube. Espero que entiendas que necesitarás nuevas nubes para probar tu teoría.



Los datos utilizados para formular una teoría o una pregunta no se pueden utilizar para verificar la misma teoría.


¿Qué haría si supiera que tiene acceso a una sola nube? Meditado en el armario, eso es lo que. Haga su pregunta antes de mirar los datos.



Las matemáticas nunca contradicen el sentido común.


Aquí llegamos a la conclusión más triste. Si usa su conjunto de datos como inspiración, no puede volver a usarlo para probar a fondo la teoría que inspiró (no importa qué trucos matemáticos de jiu-jitsu use, las matemáticas nunca van en contra del sentido común).



Decisión difícil



¡El punto es que tienes que elegir! Si solo tiene un conjunto de datos, entonces debe preguntarse: “Medito en el armario, formulo mis hipótesis para las pruebas estadísticas, y luego adopto un enfoque riguroso, ¿todo para poder tomarme en serio? ¿O simplemente estoy recopilando datos para inspirarme y, al hacerlo, me doy cuenta de que me estoy engañando a mí mismo y recuerdo que debo usar frases como 'siento' o 'inspira' o 'no estoy seguro'? ¡Decisión difícil!



¿O hay una manera de comer un pedazo de pastel dos veces? El problema es que solo tiene un conjunto de datos y necesita más de un conjunto de datos. Y si tienes suficientes datos, entonces tengo un truco que. Explotar. Tu. Cerebro.



imagen



Truco complicado



Para tener éxito en la ciencia de datos, simplemente convierta un conjunto de datos en dos (al menos) dividiendo sus datos. Luego use uno para inspirarse y el otro para pruebas rigurosas. Si el patrón que lo inspiró inicialmente también existe en los datos que no pueden influir en su opinión, entonces es probable que este patrón sea una regla general vigente en la arena para gatos de la que toma sus datos.



Si ocurre el mismo fenómeno en ambos conjuntos de datos, es posible que esta sea una regla general que se aplique a todas las fuentes de ese conjunto de datos.


RSChD!



Dado que la vida sin exploración no es vida en absoluto, aquí hay cuatro palabras para vivir: comparta sus malditos datos .



El mundo sería mejor si todos compartieran sus datos. Tendríamos mejores respuestas (gracias a las estadísticas) y mejores preguntas (gracias a los análisis). La única razón por la que las personas no ven el intercambio de datos como un hábito obligatorio es porque en el siglo pasado era un lujo que muy pocas personas podían permitirse. Los conjuntos de datos eran tan pequeños que si intentaba separarlos, tal vez no quedaría nada de ellos.



imagen


Divida sus datos en un conjunto de datos exploratorios disponibles al público que pueda usarse como inspiración, y un conjunto de datos de prueba que luego serán utilizados por expertos para validar con precisión cualquier "conjetura" encontrada durante la fase de exploración.



Algunos proyectos aún enfrentan este problema, especialmente en la investigación médica (solía estar en neurociencia, así que respeto mucho la complejidad de trabajar con pequeños conjuntos de datos), pero muchos de ustedes tienen tantos datos que necesitan contratar ingenieros. solo para organizar su movimiento ... ¿qué excusa tienes? No escatime, comparta sus datos.



Si no tiene el hábito de compartir datos, puede estar atrapado en el siglo XX.


Si tiene muchos datos y sus conjuntos no están separados, entonces existe en un paradigma obsoleto. Las personas que existen en este paradigma han llegado a un acuerdo con el pensamiento arcaico y se han negado a avanzar más en el tiempo.



Aprendizaje automático: un descendiente de particionamiento de datos



Al final, la idea es simple. Use un conjunto de datos para formar una teoría, descifre ese conjunto de datos y luego haga la magia: pruebe sus ideas en un conjunto de datos completamente nuevo.



Compartir datos es la solución rápida más fácil para una cultura de datos más saludable.


De esta manera, puede usar métodos estadísticos de manera segura y asegurarse contra el sobreajuste. De hecho, la historia del aprendizaje automático es la historia del intercambio de datos.



Cómo usar la mejor idea en ciencia de datos



Para aprovechar la mejor idea en ciencia de datos, todo lo que tiene que hacer es asegurarse de mantener los datos de prueba fuera del alcance de miradas indiscretas y luego dejar que sus analistas se vuelvan locos por todo lo demás.



Para tener éxito en la ciencia de datos, simplemente convierta un conjunto de datos en (al menos) dos dividiendo sus datos.


Cuando creas que te han traído información útil más allá de lo que han aprendido, usa tu reserva secreta de datos de prueba para probar tus hallazgos.



imagen



Aprenda los detalles de cómo obtener una profesión solicitada desde cero o subir de nivel en habilidades y salario completando los cursos en línea pagos de SkillFactory:











All Articles