Preprocesamiento de datos

¡Hola! Soy un desarrollador web y llevo varios años interesado en el aprendizaje automático. Porque en mi parque de trabajo del día a día, tengo que resolver problemas que me son menos interesantes, no relacionados con el aprendizaje automático, de vez en cuando olvido lo que alguna vez leí o usé. Para crear un memo para mí, fortalecer mis conocimientos y compartirlo con otros, decidí escribir esta serie de artículos sobre aprendizaje automático. Empezaré con el preprocesamiento de datos.



En este artículo hablaré sobre qué problemas ocurren con los datos, cómo resolverlos y también sobre los métodos más utilizados para preparar datos antes de alimentarlos a diferentes modelos.



Salta



Considere el siguiente conjunto de datos. Honestamente se me ocurrió, y más adelante en este artículo me referiré a él.



CARNÉ DE IDENTIDAD Nombre Disciplina deportiva Un país Año de nacimiento del atleta Peso del atleta Medalla
1 Iván Remo Federación Rusa 1985 265 segundo
2 Boxeo Gran Bretaña 1986 54 S
3 Kim Lucha grecorromana Corea del Norte 1986 93 GRAMO
4 Oleg Lucha grecorromana 1984 segundo
cinco Pedro Remo Brasil 97 norte
6 Valery Remo Federación Rusa 2004 97 norte


, . . — , . , .



, "" , . , , .



— , - , . , "" "" . , , - - . : , , , .



. , . .



, . , . : , . — , .





:



  • "".


ID
2 1986 54 S


  • .


ID
4 - 1984 B




, :



  • .


ID
4 - 1984 (265 + 54 + 93 + 97 + 97) / 5 = 121.2 B


, " " 1 .



  • . , .


ID
4 - 1984 (54, 93, 97, 97, 265) = 97 B




, . , , . , "" . — ( ).



ID
1 1985 265 B


, , , , . :



yoQR=Q3-Q1,



Q1 — — , 25% . Q3 — — , 75% .



, , , : :



[Q1-1,5yoQR,Q3+1,5yoQR]



.





— . , [0, 1]. , . , . (, , ) .



. , , . , .



Xnortemiw=Xolre-XmetroyonorteXmetrounX-Xmetroyonorte



Z-. Z- :



(-3σ[X],3σ[X]),



σ[X] — X.



Z- .



Xnortemiw=Xolre-METRO[X]σ[X]



M[X] — X.



, Z- , .



One-hot encoding



. . , " " - . : . . . ( ).



, , ? . , " " 1, "" — 2. . , , . , . .



, , . , "" 4 :



ID _ _ _ _
1 1 0 0 0
2 0 1 0 0
3 0 0 0 1 0
4 1 0 0 0
5 0 0 0 1
6 1 0 0 0


, , .





, . . , , . . , .



Gracias por leer o navegar hasta aquí. No he descrito todos los métodos de preprocesamiento y este artículo no es útil para los científicos de datos profesionales. Sin embargo, si es un principiante y no sabe qué hacer con sus datos, puede volver aquí de forma segura. ¡Buena suerte con tu aprendizaje y tareas interesantes!



Lista de fuentes



No soy un científico y este artículo no pretende ser científico. Por lo tanto, no elaboraré fuentes de acuerdo con GOST. Por favor discúlpeme por esto.



  1. Conferencia del curso de Yandex y HSE "Introducción al aprendizaje automático" en el cursor.
  2. Estandarización, o eliminación de medias y escalado de varianza - documentación de la biblioteca de sklearn
  3. Tareas avanzadas de preparación de datos de aprendizaje automático - Microsoft



All Articles