Data Science es un amplificador de pensamiento, intuición e inspiración.

imagen




Una de las primeras tecnologías del mundo para almacenar e intercambiar datos.



En el siglo XIX, los médicos podían recetar mercurio para los cambios de humor y arsénico para el asma. Es posible que no se les haya ocurrido lavarse las manos antes de la cirugía. Por supuesto, no intentaron matar a nadie, simplemente no sabían que había métodos más adecuados.



Estos primeros médicos tenían datos valiosos garabateados en sus cuadernos, pero cada uno vio solo una pieza de un gran rompecabezas. Sin las herramientas modernas para el intercambio y el análisis de información (así como la ciencia para dar sentido a estos datos), nada podría evitar que la superstición influya en lo que se puede ver a través del "ojo de la cerradura" de los hechos observados.



Los humanos han recorrido un largo camino con la tecnología desde entonces, pero el auge actual del aprendizaje automático y la inteligencia artificial no está fuera de contacto con el pasado. Todo esto es una continuación del instinto humano básico: comprender el mundo que nos rodea. Este instinto es necesario para que podamos tomar decisiones más inteligentes. Y ahora tenemos una tecnología significativamente mejor que nunca.



Una forma de describir este patrón que ha estado sucediendo a través de los tiempos es pensarlo como una revolución en los conjuntos de datos, no en unidades de datos. La diferencia no es trivial. Grandes cantidades de datos han ayudado a dar forma al mundo moderno. Considere a los escribas sumerios (Iraq de hoy en día) que presionaron sus lápices sobre placas de arcilla hace más de 5.000 años. Cuando lo hicieron, no solo inventaron el primer sistema de escritura, sino la primera tecnología para almacenar e intercambiar datos.



Si te inspira la promesa de que la IA puede superar las capacidades humanas, considera la papelería para darnos recuerdos sobrehumanos. Si bien hoy es fácil dar por sentado el registro de información, la capacidad de almacenar conjuntos de datos de forma segura representa un primer paso innovador hacia una mayor inteligencia.



Desafortunadamente, extraer información de losas de arcilla y sus contrapartes preelectrónicas es un fastidio. No puede hacer clic con el dedo en un libro para contar la cantidad de palabras que contiene. En cambio, debe cargar cada palabra en su cerebro para procesarla. Problemas como estos hicieron que el análisis temprano de datos fuera laborioso, por lo que los primeros intentos se estancaron muy pronto. Si bien el reino podía analizar los ingresos fiscales, solo un alma intrépida podía tratar de razonar con la misma eficacia en un campo como la medicina, donde una tradición de mil años alentó la improvisación.



imagen



Afortunadamente, la raza humana ha producido pioneros increíbles. Por ejemplo, el mapa de muertes de John Snow, compilado durante el brote de cólera en Londres en 1858, inspiró a los médicos a reconsiderar la superstición de que la enfermedad era causada por miasma (aire tóxico) y a prestar atención al agua potable.



imagen



Si conoces a La dama de la lámpara, Florence Nightingale, por su heroica compasión como enfermera, te sorprendería saber que también fue pionera en análisis. Su ingeniosa infografía durante la Guerra de Crimea salvó muchas vidas porque identificó los problemas de higiene como la principal causa de muertes en el hospital, y fue esta infografía la que inspiró al gobierno a prestar atención al saneamiento.



imagen



La era de los conjuntos de datos uniformes surgió a medida que el valor de la información comenzó a afirmarse en más y más áreas, lo que condujo al advenimiento de las computadoras. Y no se trata del amigo electrónico al que estás acostumbrado hoy. La "computadora" (calculadora) se originó como una profesión humana, cuando los empleados especiales realizaban cálculos y procesaban datos manualmente para evaluar su importancia.



imagen



¡Estas personas eran todas computadoras! Foto tomada en la década de 1950 por el personal del túnel de presión supersónica .



La belleza de los datos es que le permite moldear el juicio a partir de algo más significativo que la nada. Al mirar los datos, te inspiras a hacer nuevas preguntas, siguiendo los pasos de Florence Nightingale y Jon Snow. Esta es la disciplina de la analítica: inspirar modelos e hipótesis a través de la investigación.



De conjuntos de datos a particionamiento de datos



A principios del siglo XX, el deseo de tomar mejores decisiones ante la incertidumbre condujo al nacimiento de una profesión paralela: la estadística. Los estadísticos ayudan a verificar si es razonable comportarse de acuerdo con el fenómeno que el analista descubrió en el conjunto de datos actual (y más allá).



Un ejemplo famoso es Ronald A. Fisher, quien desarrolló el primer libro de texto sobre estadísticas del mundo. Fisher describe la realización de una prueba de hipótesis en respuesta a la afirmación de su amigo de que podría determinar si se agregó leche al té antes o después del agua. Con la esperanza de demostrar que esto no era cierto, según los datos, tuvo que concluir que su amigo realmente podría haberlo hecho.



Los análisis y las estadísticas tienen un gran talón de Aquiles: si usa el mismo dato para generar una hipótesis y probarla, entonces está haciendo trampa. El rigor de las estadísticas requiere que declares tus intenciones antes de tomar las medidas apropiadas. Analytics es más un juego retrospectivo extendido. Los análisis y las estadísticas eran frustrantemente incompatibles hasta que la próxima gran revolución (intercambio de datos) cambió todo.



Compartir datos es una idea simple, pero es una de las ideas más importantes para científicos como yo. Si solo tiene un conjunto de datos, debe elegir entre análisis (inspiración sin fundamento) y estadísticas (inferencias fuertes). ¿Quieres un truco? Divide tu conjunto de datos en dos y tendrás a los lobos alimentados y a las ovejas a salvo.



La era de dos conjuntos de datos elimina la tensión entre análisis y estadísticas e introduce el trabajo coordinado entre dos tipos diferentes de científicos de datos. Los analistas usan un conjunto de datos para ayudarlo a formular preguntas, y los estadísticos usan un conjunto diferente de datos para proporcionar respuestas sólidas.



Este lujo impone exigencias estrictas en la cantidad de datos. Es más fácil hablar sobre la separación que implementarla realmente. Usted sabe de qué se trata si ha tratado de recopilar suficiente información para al menos un conjunto de datos decente. La era de los conjuntos de datos dobles es un nuevo desarrollo que va de la mano con mejores equipos de procesamiento de datos, menores costos de almacenamiento y la capacidad de compartir información recopilada a través de Internet.



De hecho, las innovaciones tecnológicas que llevaron a la era de los conjuntos de datos dobles rápidamente marcaron el comienzo de la siguiente fase: la era de los tres conjuntos de datos automáticos.



Hay un término más familiar para esto: aprendizaje automático.



El uso de un conjunto de datos destruye su pureza como fuente de rigor estadístico. Solo tiene una oportunidad, entonces, ¿cómo sabe qué información analítica vale la pena probar? Si tuviera un tercer conjunto de datos, podría usarlo para realizar una prueba de manejo de su idea. Este proceso se llama validación y es el núcleo de lo que hace que el aprendizaje automático funcione.



Una vez que sea libre de probar todo y ver ideas sólidas, puede confiar en que cualquiera encontrará una solución: analistas experimentados, pasantes, hojas de té para la adivinación e incluso algoritmos que funcionan fuera de contexto sobre su problema comercial. La solución que funcione mejor en el proceso de validación se convertirá en candidato para la prueba estadística adecuada. ¡Te has empoderado con la capacidad de automatizar la inspiración!



Inspiración automatizada



Es por eso que el aprendizaje automático está revolucionando los conjuntos de datos, no solo los datos. Se trata del lujo de tener suficientes datos para una partición de tres vías.



¿Cómo encaja la IA en esta imagen? El aprendizaje automático con redes neuronales multicapa se denomina técnicamente aprendizaje profundo, pero ha recibido otro apodo que se ha quedado estancado: la IA. Si bien la IA alguna vez tuvo un significado diferente, hoy es más probable que se use como sinónimo de aprendizaje profundo.



Las redes neuronales profundas han creado un zumbido al superar los algoritmos tradicionales de aprendizaje automático en una multitud de problemas complejos. Sin embargo, requieren mucha más información para capacitarlos, y los requisitos para las capacidades de procesamiento de datos están más allá de las capacidades de una computadora portátil convencional. Es por eso que el surgimiento de la IA moderna está asociado con las tecnologías en la nube. La tecnología en la nube le permite alquilar el centro de datos de otra persona en lugar de ensamblar el hardware usted mismo, para que pueda probar las modernas tecnologías de inteligencia artificial antes de comenzar a invertir en ellas.



Con esta pieza del rompecabezas, tenemos un conjunto completo de profesiones: aprendizaje automático y expertos en inteligencia artificial, analistas y estadísticos. El término general que describe a cada uno de ellos es un experto en ciencia de datos, la ciencia que hace que los datos sean útiles.



Data Science es el producto de nuestra era de conjuntos de datos triples. Muchas industrias en la industria actual generan regularmente datos más que suficientes. Entonces, ¿es posible un enfoque de cuatro conjuntos de datos?



¿Cuál es el siguiente paso si el modelo que acaba de entrenar muestra valores bajos de validación? Si te comportas como la mayoría de las personas, ¡inmediatamente exigirás descubrir la razón! Lamentablemente, no hay un conjunto de datos que pueda responder a su pregunta. Es posible que sienta la tentación de profundizar en su conjunto de datos de validación, pero, por desgracia, la depuración afectará su capacidad de validar sus modelos de manera efectiva.



Al analizar su conjunto de datos de validación, esencialmente está volviendo a convertir tres conjuntos de datos en dos. ¡En lugar de hacer algo útil, involuntariamente volviste al pasado!



La solución se encuentra fuera de los tres conjuntos de datos que ya usa. Para llegar a iteraciones de aprendizaje más inteligentes y ajustes hiperparamétricos, querrá acercarse a las mejores prácticas: la era de los cuatro conjuntos de datos.



Suponiendo que tres conjuntos de datos le brinden inspiración, iteraciones de aprendizaje y pruebas rigurosas, el cuarto acelerará su ciclo de desarrollo de IA con análisis avanzados que brindan información sobre qué enfoques se pueden probar en cada iteración. ¡Al usar el intercambio de datos de cuatro vías, puede aprovechar la abundancia de datos! Bienvenido al futuro.



imagen



Descubra los detalles de cómo obtener una profesión de alto perfil desde cero o subir de nivel en habilidades y salario tomando los cursos en línea pagos de SkillFactory:











All Articles