👆🏼 💇🏻 👩‍❤️‍👨 Aprendizaje automático. Redes neuronales (parte 1): el proceso de aprendizaje del perceptrón 🤛🏿 🤰🏽 🥒

Quiero señalar de antemano que aquellos que saben cómo aprende el perceptrón difícilmente encontrarán algo nuevo en este artículo. Puede omitirlo con seguridad. Por qué decidí escribir esto: me gustaría escribir una serie de artículos relacionados con las redes neuronales y el uso de TensorFlow.js, por lo tanto, no pude omitir extractos teóricos generales. Por tanto, les pido que traten la idea final con mucha paciencia y comprensión.

En la programación clásica, el desarrollador describe en un lenguaje de programación específico un cierto conjunto de reglas rígidamente especificado, que fue determinado en base a su conocimiento en un área temática específica y que, como una primera aproximación, describe los procesos que ocurren en el cerebro humano al resolver un problema similar.

Por ejemplo, se puede programar una estrategia para jugar tic-tac-toe, ajedrez y más (Figura 1).

Figura 1 - El enfoque clásico para resolver problemas

Mientras que los algoritmos de aprendizaje automático pueden definir un conjunto de reglas para resolver problemas sin la participación del desarrollador, pero solo en función de la disponibilidad de un conjunto de datos de entrenamiento.

Un conjunto de capacitación es algún tipo de conjunto de entradas asociadas con un conjunto de resultados esperados (respuestas, productos). En cada paso del entrenamiento, el modelo, al cambiar el estado interno, optimizará y reducirá el error entre la salida real del modelo y el resultado esperado (Figura 2).

Figura 2 - Aprendizaje automático

Redes neuronales

Durante mucho tiempo, los científicos, inspirados por los procesos que tienen lugar en nuestro cerebro, intentaron aplicar ingeniería inversa al sistema nervioso central e intentar imitar el trabajo del cerebro humano. Gracias a esto, nació toda una dirección en el aprendizaje automático: las redes neuronales.

En la Figura 3, puede ver las similitudes entre el diseño de una neurona biológica y la representación matemática de una neurona utilizada en el aprendizaje automático.

Figura 3 - Representación matemática de una neurona

En una neurona biológica, una neurona recibe señales eléctricas de dendritas, modulando señales eléctricas con diferentes potencias, que pueden excitar a la neurona cuando se alcanza un determinado valor umbral, lo que a su vez conducirá a la transmisión de una señal eléctrica a otras neuronas a través de sinapsis.

Perceptrón

Modelo matemático de una red neuronal, que consta de una neurona, que realiza dos operaciones secuenciales (Figura 4):

calcula la suma de las señales de entrada teniendo en cuenta sus pesos (conductancia o resistencia) de la conexión
${s u m = \vec{X}}^{T} \vec{W} + \vec{B} = \sum_{i = 1}^{n} x_{i} w_{i} + b$
${sum=\ \vec{X}}^T\vec{W}+\vec{B}=\sum_{i=1}^{n}{x_iw_i}+b$
aplica la función de activación a la suma total de las señales de entrada.
$o u t = φ (s u m)$
$out=\varphi(sum)$

Figura 4 - Modelo matemático del perceptrón

Cualquier función diferenciable puede usarse como función de activación, las más comúnmente utilizadas se muestran en la Tabla 1. La elección de la función de activación recae sobre los hombros del ingeniero, y generalmente esta elección se basa en la experiencia existente en la resolución de problemas similares, bien, o simplemente mediante el método selección.

La nota

– , ReLU , .

1 -


Linear function	$φ (x) = x$ $\varphi\left(x\right)=x$	.
Sigmoid function	$φ (x) = \frac{1}{1 + e^{- x}}$ $\varphi\left(x\right)=\frac{1}{1+e^{-x}}$
Softmax function	$φ (x_{j}) = \frac{e^{x_{j}}}{\sum_{i} e^{x_{i}}}$ $\varphi\left(x_j\right)=\frac{e^{x_j}}{\sum_{i} e^{x_i}}$	$φ ([\begin{matrix} 1.2 \\ 0.9 \\ 0.4 \end{matrix}]) = [\begin{matrix} 0.46 \\ 0.34 \\ 0.20 \end{matrix}]$ $\varphi \left ( \begin{bmatrix} 1.2\\ 0.9\\ 0.4 \end{bmatrix} \right ) = \begin{bmatrix} 0.46\\ 0.34\\ 0.20 \end{bmatrix}$ ( 2)
Hyperbolic Tangent function	$φ (x) = \frac{e^{x} - e^{- x}}{e^{x} - e^{- x}}$ $\varphi\left(x\right)=\frac{e^x-e^{-x}}{e^x-e^{-x}}$	[-1, 1]. , ,
Rectified Linear Unit (ReLU)	$φ (x) = max (0, x)$ $\varphi\left(x\right)=\max(0,x)$	, , sigmoid tanh
Leaky ReLU	$φ (x) = max (0.01 x, x)$ $\varphi\left(x\right)=\max(0.01x,x)$	ReLU , 0

El proceso de aprendizaje consta de varios pasos. Para mayor claridad, consideraremos un determinado problema de ficción, que resolveremos con una red neuronal que consta de una neurona con una función de activación lineal (esto es esencialmente un perceptrón sin función de activación), también para simplificar la tarea, excluiremos el nodo de desplazamiento b en la neurona (Figura 5). ...

Figura 5 - El conjunto de datos de entrenamiento y el estado de la red neuronal en el paso anterior del entrenamiento

En esta etapa, tenemos una red neuronal en un cierto estado con ciertos pesos de conexión que se calcularon en la etapa anterior del entrenamiento del modelo, o si esta es la primera iteración del entrenamiento, entonces los valores de los pesos de conexión se seleccionan en Orden aleatorio.

Entonces, imaginemos que tenemos un conjunto de datos de entrenamiento, los valores de cada elemento del conjunto están representados por un vector de datos de entrada (datos de entrada), que contiene 2 parámetros (característica)

x_{1}, x_{2}

$x_1,x_2$ ... Debajo

x_{1}, x_{2}

$x_1,x_2$ en el modelo, dependiendo del área temática en consideración, se puede implicar cualquier cosa: el número de habitaciones de la casa, la distancia de la casa al mar, o simplemente estamos tratando de entrenar la red neuronal de la operación lógica Y, u OR.

Cada vector de entrada del conjunto de entrenamiento se asigna a un vector de salida esperado. En este caso, el vector de datos de salida contiene solo un parámetro que, nuevamente, dependiendo del área temática seleccionada, puede significar cualquier cosa: el precio de una casa, el resultado de realizar una operación lógica Y u O.

PASO 1 - Proceso de retroalimentación

En este paso, calculamos la suma de las señales de entrada teniendo en cuenta el peso de cada enlace y aplicamos la función de activación (en nuestro caso, no hay función de activación). Hagamos los cálculos para el primer elemento del conjunto de entrenamiento:

y_{p r e d i c t e d} = \sum_{i = 1}^{n} x_{i} w_{i} = 1 \cdot 0.1 + 0.5 \cdot 0.2 = 0.2

$y_{predicted}=\sum_{i=1}^{n}{x_iw_i}=1\cdot0.1+0.5\cdot0.2=0.2$

Figura 6 - Propagación hacia adelante del error

Tenga en cuenta que la fórmula anterior es una ecuación matemática simplificada para el caso especial de las operaciones tensoriales.

Un tensor es esencialmente un contenedor de datos que puede tener N ejes y un número arbitrario de elementos a lo largo de cada uno de los ejes. La mayoría de los tensores están familiarizados con las matemáticas: vectores (tensor con un eje), matrices (tensor con dos ejes: filas, columnas).

La fórmula se puede escribir en la siguiente forma, donde verá las matrices familiares (tensores) y su multiplicación, y también comprenderá qué tipo de simplificación se discutió anteriormente:

{\vec{Y}}_{p r e d i c t e d} = {\vec{X}}^{T} \vec{W} = {[\begin{matrix} x_{1} \\ x_{2} \end{matrix}]}^{T} \cdot [\begin{matrix} w_{1} \\ w_{2} \end{matrix}] = [\begin{matrix} x_{1} & x_{2} \end{matrix}] \cdot [\begin{matrix} w_{1} \\ w_{2} \end{matrix}] = [x_{1} w_{1} + x_{2} w_{2}]

${\vec{Y}}_{predicted}=\ {\vec{X}}^T\vec{W}=\left[\begin{matrix}x_1\\x_2\\\end{matrix}\right]^T\cdot \left [ \begin{matrix} w_1\\ w_2 \end{matrix} \right ]=\left [ \begin{matrix} x_1 & x_2 \end{matrix} \right ] \cdot \left [ \begin{matrix} w_1\\ w_2 \end{matrix} \right ] =\left [ x_1w_1+x_2w_2 \right ]$

PASO 2 - Calcule la

función de error La función de error es una métrica que refleja la discrepancia entre la salida esperada y la recibida. Las siguientes funciones de error se utilizan comúnmente:

- Error cuadrático medio (MSE) : esta función de error es especialmente sensible a los valores atípicos en el conjunto de entrenamiento, ya que utiliza el cuadrado de la diferencia entre los valores reales y esperados (un valor atípico es un valor que está muy lejos de otros valores en conjunto de datos, que a veces puede aparecer debido a errores de datos, como mezclar datos con diferentes unidades de medida o lecturas deficientes del sensor):

L = \frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2}

$L=\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2$

- Desviación de la raíz cuadrada media (Root MSE) - de hecho, esto es lo mismo que la raíz del error cuadrático medio en el contexto de las redes neuronales, pero puede reflejar una unidad física real de medida, por ejemplo, si en una red neuronal los parámetros de salida de una red neuronal son el precio de una casa en dólares, entonces la unidad de medida el error cuadrático medio será el dólar cuadrado (

$^{2}

$$^2$ ), y para la desviación estándar es el dólar ($), que naturalmente simplifica ligeramente la tarea del análisis humano:

L = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2}}

$L=\sqrt{\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2}$

- la desviación media (error absoluto medio, MAE) - en contraste con los dos valores anteriores, no es tan sensible a las emisiones:

L = \frac{1}{N} \sum_{i = 1}^{N} | y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)} |

$L=\frac{1}{N}\sum_{i=1}^{N}\left|y_{predicted(i)}-y_{expected(i)}\right|$

- entropía cruzada - usos para tareas de clasificación:

L = - \sum_{i = 1}^{N} \sum_{j = 1}^{M} y_{e x p e c t e d (i j)} \log (y_{p r e d i c t e d (i j)})

$L=-\sum_{i=1}^{N}\sum_{j=1}^{M}{y_{expected(ij)}\log(y_{predicted(ij)})}$

Dónde

N

$N$ - el número de copias en el conjunto de formación

M

$M$ - el número de clases al resolver problemas de clasificación

y_{e x p e c t e d}

$y_{expected}$ - valor de salida esperado

y_{p r e d i c t e d}

$y_{predicted}$ - el valor de salida real del modelo entrenado

Para nuestro caso particular, usaremos MSE:

L = \frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2} = {(0.2 - 1)}^{2} = 0.64

$L=\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2={(0.2-1)}^2=0.64$

PASO 3 - Retropropagación

El objetivo de entrenar la red neuronal es simple: minimizar la función de error:

L \to m i n

$L\rightarrow min$

Una forma de encontrar el mínimo de una función es modificar los pesos de conexión en la dirección opuesta al vector de gradiente en cada siguiente paso de aprendizaje: el método de descenso de gradiente, y matemáticamente se ve así:

{\vec{w}}^{(k + 1)} = {\vec{w}}^{k} - μ \nabla L ({\vec{w}}^{k})

${\vec{w}}^{(k+1)}={\vec{w}}^k-\mu\nabla L({\vec{w}}^k)$

Dónde

k

$k$ - k-ésima iteración del entrenamiento de redes neuronales;

μ

$\mu$ - la tasa de aprendizaje la establece el ingeniero, normalmente puede ser 0,1; 0.01 (sobre cómo el paso de aprendizaje afecta el proceso de convergencia de aprendizaje, observe un poco más adelante)

\nabla L

$\nabla L$ - el gradiente de la función de error

Para encontrar el gradiente, usamos derivadas parciales con respecto a los argumentos personalizados

w_{1}, w_{2}

$w_1,w_2$ :

\nabla L (\vec{w}) = [\begin{matrix} \frac{\partial L}{\partial w_{1}} \\ ⋮ \\ \frac{\partial L}{\partial w_{N}} \end{matrix}]

$\nabla L\left(\vec{w}\right)=\left[\begin{matrix}\frac{\partial L}{\partial w_1}\\\vdots\\\frac{\partial L}{\partial w_N}\\\end{matrix}\right]$

En nuestro caso particular, teniendo en cuenta todas las simplificaciones, la función de error toma la forma:

L (w_{1}, w_{2}) = {(y_{p r e d i c t e d} - y_{e x p e c t e d})}^{2} = {(x_{1} w_{1} + x_{2} w_{2} - y_{e x p e c t e d})}^{2} =

$L\left(w_1,w_2\right)={(y_{predicted}-y_{expected})}^2={(x_1w_1+x_2w_2-y_{expected})}^2=$

= {(1 \cdot w_{1} + 0.5 \cdot w_{2} - 1)}^{2}

$={(1\cdot w_1+0.5\cdot w_2-1)}^2$

Memo de fórmulas derivadas

,

$\frac{d}{d x} c = 0; c = c o n s t$
$\frac{d}{dx}c=0;c=const$
$\frac{d}{d x} [c f (x)] = c f^{'} (x); c = c o n s t$
$\frac{d}{dx}\left[cf\left(x\right)\right]=cf^\prime\left(x\right);\ c=const$
$\frac{d}{d x} x^{n} = n x^{n - 1}$
$\frac{d}{dx}x^n=nx^{n-1}$

$\frac{d}{d x} [f (x) \pm g (x)] = f^{'} (x) \pm g^{'} (x)$
$\frac{d}{dx}\left[f\left(x\right)\pm g(x)\right]=f^\prime\left(x\right)\pm g^\prime(x)$
$\frac{d}{d x} [f (x) g (x)] = f^{'} (x) g (x) + g^{'} (x) f (x)$
$\frac{d}{dx}\left[f\left(x\right)g\left(x\right)\right]=f^\prime\left(x\right)g\left(x\right)+g^\prime\left(x\right)f\left(x\right)$
$\frac{d}{d x} f (g (x)) = f^{'} (g (x)) g^{'} (x)$
$\frac{d}{dx}f\left(g\left(x\right)\right)=f^\prime(g(x))g^\prime(x)$

Encontremos las siguientes derivadas parciales:

\frac{\partial}{\partial w_{1}} {(w_{1} + 0.5 w_{2} - 1)}^{2} = 2 \cdot (w_{1} + 0.5 w_{2} - 1) \frac{\partial}{\partial w_{1}} (w_{1} + 0.5 w_{2} - 1) =

$\frac{\partial}{\partial w_1}{(w_1+0.5w_2-1)}^2=2\cdot\left(w_1+0.5w_2-1\right)\frac{\partial}{\partial w_1}\left(w_1+0.5w_2-1\right)=$

= 2 \cdot (w_{1} + 0.5 w_{2} - 1) \cdot 1 = 2 (0.1 + 0.5 \cdot 0.2 - 1) = - 1.6

$=2\cdot\left(w_1+0.5w_2-1\right)\cdot1=2\left(0.1+0.5\cdot0.2-1\right)=-1.6$

\frac{\partial}{\partial w_{2}} {(w_{1} + 0.5 w_{2} - 1)}^{2} = 2 \cdot (w_{1} + 0.5 w_{2} - 1) \frac{\partial}{\partial w_{2}} (w_{1} + 0.5 w_{2} - 1) =

$\frac{\partial}{\partial w_2}{(w_1+0.5w_2-1)}^2=2\cdot\left(w_1+0.5w_2-1\right)\frac{\partial}{\partial w_2}\left(w_1+0.5w_2-1\right)=$

= 2 \cdot (w_{1} + 0.5 w_{2} - 1) \cdot 0.5 = 2 (0.1 + 0.5 \cdot 0.2 - 1) \cdot 0.5 = - 0.8

$=2\cdot\left(w_1+0.5w_2-1\right)\cdot0.5=2\left(0.1+0.5\cdot0.2-1\right)\cdot0.5=-0.8$

Entonces, el proceso de propagación hacia atrás del error es el movimiento a lo largo del modelo desde la salida hacia la entrada con la modificación de los pesos del modelo en la dirección opuesta al vector de gradiente. Estableciendo el paso de aprendizaje 0.1 (tasa de aprendizaje) tenemos (Figura 7):

w_{1}^{(k + 1)} = w_{1}^{(k)} - μ \frac{\partial L (w_{1}, w_{2})}{\partial w_{1}} = 0.1 - 0.1 \cdot (- 1.6) = 0.26

$w_1^{(k+1)}=w_1^{(k)}-\mu\frac{\partial L\left(w_1,w_2\right)}{\partial w_1}=0.1-0.1\cdot\left(-1.6\right)=0.26$

w_{2}^{(k + 1)} = w_{2}^{(k)} - μ \frac{\partial L (w_{1}, w_{2})}{\partial w_{2}} = 0.2 - 0.1 \cdot (- 0.8) = 0.28

$w_2^{(k+1)}=w_2^{(k)}-\mu\frac{\partial L\left(w_1,w_2\right)}{\partial w_2}=0.2-0.1\cdot\left(-0.8\right)=0.28$

Figura 7 - Retropropagación del error

Por lo tanto, hemos completado k + 1 pasos de entrenamiento para asegurarnos de que el error ha disminuido y la salida del modelo con nuevos pesos se ha acercado más a la esperada, realizaremos el proceso de propagación hacia adelante del error sobre el modelo con nuevos pesos (ver PASO 1) :

y_{p r e d i c t e d} = x_{1} w_{1} + x_{2} w_{2} = 1 \cdot 0.26 + 0.5 \cdot 0.28 = 0.4

$y_{predicted}=x_1w_1+x_2w_2=1\cdot0.26+0.5\cdot0.28=0.4$

Como puede ver, el valor de salida ha aumentado en 0,2 unidades en la dirección correcta hacia el resultado esperado: uno (1). El error entonces será:

L = {(0.4 - 1)}^{2} = 0.36

$L={(0.4-1)}^2=0.36$

Como puede ver, en el paso de entrenamiento anterior, el error fue 0,64, y con los nuevos pesos - 0,36, por lo tanto, ajustamos el modelo en la dirección correcta.

Siguiente parte del artículo:

Machine Learning. Redes neuronales (parte 2): modelado de quirófano; XOR con aprendizaje automático de TensorFlow.js

. Redes neuronales (Parte 3) - Red convolucional bajo el microscopio. Explorando la API de Tensorflow.js

Aprendizaje automático. Redes neuronales (parte 1): el proceso de aprendizaje del perceptrón

Redes neuronales

Perceptrón

La nota

More articles: