¡Hola! Soy un desarrollador web y llevo varios años interesado en el aprendizaje automático. Porque en mi parque de trabajo del día a día, tengo que resolver problemas que me son menos interesantes, no relacionados con el aprendizaje automático, de vez en cuando olvido lo que alguna vez leí o usé. Para crear un memo para mí, fortalecer mis conocimientos y compartirlo con otros, decidí escribir esta serie de artículos sobre aprendizaje automático. Empezaré con el preprocesamiento de datos.
En este artículo hablaré sobre qué problemas ocurren con los datos, cómo resolverlos y también sobre los métodos más utilizados para preparar datos antes de alimentarlos a diferentes modelos.
Salta
Considere el siguiente conjunto de datos. Honestamente se me ocurrió, y más adelante en este artículo me referiré a él.
CARNÉ DE IDENTIDAD | Nombre | Disciplina deportiva | Un país | Año de nacimiento del atleta | Peso del atleta | Medalla |
---|---|---|---|---|---|---|
1 | Iván | Remo | Federación Rusa | 1985 | 265 | segundo |
2 | Boxeo | Gran Bretaña | 1986 | 54 | S | |
3 | Kim | Lucha grecorromana | Corea del Norte | 1986 | 93 | GRAMO |
4 | Oleg | Lucha grecorromana | 1984 | segundo | ||
cinco | Pedro | Remo | Brasil | 97 | norte | |
6 | Valery | Remo | Federación Rusa | 2004 | 97 | norte |
, . . — , . , .
, "" , . , , .
— , - , . , "" "" . , , - - . : , , , .
. , . .
, . , . : , . — , .
:
- "".
ID | ||||||
---|---|---|---|---|---|---|
2 | 1986 | 54 | S |
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | B |
, :
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (265 + 54 + 93 + 97 + 97) / 5 = 121.2 | B |
, " " 1 .
- . , .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (54, 93, 97, 97, 265) = 97 | B |
, . , , . , "" . — ( ).
ID | ||||||
---|---|---|---|---|---|---|
1 | 1985 | 265 | B |
, , , , . :
— — , 25% . — — , 75% .
, , , : :
.
— . , [0, 1]. , . , . (, , ) .
. , , . , .
Z-. Z- :
— X.
Z- .
M[X] — X.
, Z- , .
One-hot encoding
. . , " " - . : . . . ( ).
, , ? . , " " 1, "" — 2. . , , . , . .
, , . , "" 4 :
ID | _ | _ | _ | _ | ||
---|---|---|---|---|---|---|
1 | 1 | 0 | 0 | 0 | ||
2 | 0 | 1 | 0 | 0 | ||
3 | 0 | 0 | 0 | 1 | 0 | |
4 | 1 | 0 | 0 | 0 | ||
5 | 0 | 0 | 0 | 1 | ||
6 | 1 | 0 | 0 | 0 |
, , .
, . . , , . . , .
Gracias por leer o navegar hasta aquí. No he descrito todos los métodos de preprocesamiento y este artículo no es útil para los científicos de datos profesionales. Sin embargo, si es un principiante y no sabe qué hacer con sus datos, puede volver aquí de forma segura. ¡Buena suerte con tu aprendizaje y tareas interesantes!
Lista de fuentes
No soy un científico y este artículo no pretende ser científico. Por lo tanto, no elaboraré fuentes de acuerdo con GOST. Por favor discúlpeme por esto.