Normalización inteligente de datos: datos categóricos y ordinales, funciones "emparejadas"

Este artículo es ad hoc. La última vez que miré los matices y desafíos de los diferentes métodos de normalización de datos. Y solo después de la publicación me di cuenta de que no había mencionado algunos detalles importantes. Para algunos, parecerán obvios, pero, en mi opinión, es mejor decirlo explícitamente.



Normalizar datos categóricos



Para no saturar el texto con cosas básicas, asumiré que sabes qué son los datos categóricos y ordinales, y en qué se diferencian del resto.



Obviamente, cualquier normalización solo se puede realizar en datos numéricos. En consecuencia, si solo los números son adecuados para su algoritmo / programa para trabajo posterior, entonces es necesario convertir todos los demás tipos a ellos.



Los datos categóricos son simples. Si el objetivo no es simplemente codificar (cifrar) los valores con algunos números, entonces la única opción disponible es representarlos como valores “1” - “0” (SÍ - NO) para cada categoría posible. Esta es la denominada codificación one-hot . Cuando, en lugar de una característica categórica, aparecen tantas características "booleanas" nuevas como categorías posibles.





Y eso es todo.



, .



, , .



, /”” , — . . .



, , , , “” “”. “ ”, , “” . , , — .



, - , « , 0 1». , . , .





. “” ( ) . , . .



1. . ( ). ( ) , , , . , , .





2. ( ). , “” .



, , . — , , , .



— ..





“”



, , . , .



. “” , . “” .



. , , , . — , , , ( ). .



“” , “”. .





. . , , 100 , 100 . 100 .



,





. “” , , . - , .



“” ( ) “” .





, , “”. .





“” “” .



. /, . “-” ( ), “-” ( ). , - , “-” , “-”.





. . “” .



, , (- ), “-”, , “-”, . .. “”.



, “”, .



, — - , . - .



P.S. — , - AdjustedScaler, “” .




All Articles