Lista de comprobaci贸n antes de calibrar un modelo de aprendizaje autom谩tico

A menudo, en teor铆a, el funcionamiento de un modelo parece simple y ordenado, pero cuando obtiene un conjunto de datos reales y la tarea de calcularlos, puede causar un estupor. Ofrecemos 7 consejos 煤tiles de Peter Lukyanchenko, ex-Team Lead Analytics en Lamoda y director del curso online 鈥淢atem谩ticas para la ciencia de datos. Nivel avanzado " .










隆Hola! Este es Pyotr Lukyanchenko (PetrPavlovich). Mi lista de verificaci贸n es una colecci贸n de pensamientos que se han desarrollado a lo largo de los a帽os, llenos de golpes y errores.



1. Declaraci贸n del problema



Siempre verifique dos veces el problema que desea contar. 驴Qu茅 vas a hacer? 驴Clasificar algo? 驴Calcular? Una comprensi贸n clara de la tarea determinar谩 su pr贸xima acci贸n.



2. Datos (entrada de basura = salida de basura)



Aseg煤rese siempre de que no haya duplicados en los datos. La frase "Garbage In = Garbage Out" significa que si los datos se recopilan de alguna manera, el resultado saldr谩 de alguna manera. Por cierto, es por eso que existe una profesi贸n separada de Ingeniero de datos: especialistas que, a menudo con un trabajo heroico, limpian datos simplemente repugnantes. Saben c贸mo identificar las desviaciones at铆picas en ellos, eliminarlos, corregirlos, para que los analistas posteriores puedan trabajar con conjuntos de datos de alta calidad.



3. 脕rea tem谩tica



Conozca siempre el 谩rea tem谩tica en la que est谩 construyendo su regresi贸n. Esto ayudar谩 a probar el realismo de las hip贸tesis. Y con ese entendimiento, evitar谩 el esfuerzo in煤til de contar regresiones tontas de la serie "C贸mo la tasa de deshielo de los glaciares afecta el crecimiento de la poblaci贸n de conejos en Australia".



4. L贸gica del modelo



No se puede trabajar sin l贸gica. Entender la l贸gica del modelo, si hay l贸gica en esta relaci贸n es muy importante. En este caso, el resultado obtenido puede incluso ser de alta calidad, pero al mismo tiempo no se puede interpretar. Por tanto, si parece que no hay l贸gica, es mejor no contar la regresi贸n, porque en este caso resultar谩 ser una estupidez, lo que dar谩 lugar a nuevas decisiones err贸neas.



5. Las m茅tricas de la prueba son m谩s importantes que las m茅tricas de la formaci贸n



Cuando entrenamos la regresi贸n, usamos una m茅trica para entrenar. Esta es una m茅trica de MSE o una alternativa. Y cuando hayamos contado muchas regresiones, podemos compararlas entre s铆. La m茅trica R-cuadrado ya se usa aqu铆.



La m茅trica de entrenamiento de regresi贸n y la m茅trica de evaluaci贸n de regresi贸n (prueba) son dos m茅tricas diferentes. Y si un modelo ha aprendido bien, esto no significa que se probar谩 bien. Cada una de estas m茅tricas debe seleccionarse cuidadosa y correctamente.



6 cuanto m谩s simple sea la regresi贸n, mejor funcionar谩



Y cuanto m谩s dif铆cil es la regresi贸n, m谩s probable es que algo salga mal.



7. Es mejor una buena regresi贸n ahora que una perfecta en una hora



Si ha encontrado una buena soluci贸n de regresi贸n, es mejor detenerse all铆. No intentes hacer algo perfecto, s煤per preciso. A veces, intentar mejorar puede empeorar. S铆, quiero lograr 100 predicciones, pero en la vida real no hay 100% de calidad. Incluso las m茅tricas de mejor calidad en Kaggle son 96-98%.



Ahora bien, en la calibraci贸n de modelos hay mucho trabajo intelectual manual que requiere ciertas habilidades de un especialista. S铆, todos nos esforzamos por el aprendizaje autom谩tico autom谩tico, es decir Selecci贸n autom谩tica de Python del mejor modelo. Pero hasta ahora este es un estado inalcanzable, y sin entender el aparato matem谩tico, es imposible elegir el modelo correcto. Imagine que obtiene una serie de tiempo similar a la siguiente tabla y se le pregunta "Por favor, prediga ...".







En un conjunto de fechas de este tipo, puede crear una gran cantidad de regresiones diferentes, donde cada una dar谩 su propio pron贸stico. A continuaci贸n, le mostramos c贸mo elegir el mejor pron贸stico, c贸mo identificar valores at铆picos en los datos y muchas otras cosas pr谩cticas que atravesamos en el curso avanzado Matem谩ticas para la ciencia de datos .



Por lo tanto, si ya est谩 trabajando o simplemente va a pasar al campo de la ciencia de datos, pero sabe matem谩ticas al nivel de "aprobar algo en el instituto", aqu铆 obtendr谩 todas las habilidades que faltan.



Puede encontrar informaci贸n a煤n m谩s 煤til en el canal de telegramas del autor de Peter .






Lee mas:






All Articles