Introducción a varios algoritmos de aprendizaje por refuerzo (Q-Learning, SARSA, DQN, DDPG)

(Q-learning, SARSA, DQN, DDPG)

El aprendizaje por refuerzo (RL, en adelante RL) se refiere a un tipo de método de aprendizaje automático en el que un agente recibe una recompensa diferida en el siguiente paso de tiempo para evaluar su acción anterior. Se utilizó principalmente en juegos (por ejemplo, Atari, Mario), con un rendimiento a la par o incluso superior al de los humanos. Recientemente, cuando el algoritmo se desarrolla en combinación con redes neuronales, es capaz de resolver problemas más complejos.

Debido al hecho de que existe una gran cantidad de algoritmos OP, no es posible compararlos todos entre sí. Por lo tanto, este artículo discutirá brevemente solo algunos algoritmos conocidos.

1. Aprendizaje por refuerzo

Un OP típico tiene dos componentes, Agente y Entorno.

– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .

. , , .

:

1. Action (A, a): , ()

2. State (S,s):

3. Rewrd (R,r): ,

4. Policy (π ): - , , (a’) .

5. Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )

6. Q-value (Q): Q V, , a ( ). Qπ(s, a) π s a

* MCTS (modelo de pasos de tiempo de Monte Carlo), dentro de la política (un algoritmo donde el Agente está incluido en la política, es decir, aprende en función de las acciones derivadas de la política actual), fuera de la política (el Agente aprende en función de las acciones recibidas de otros política — * MCTS (- ), on-policy (, , .. , ), off-policy ( ,

. T(s₁|(s₀, a)) S₀ a S₁. , , , a . , , (S*S*A )

, . / .

2.

2.1. Q-learning

Q-learning , :

E en la ecuación anterior se refiere al valor esperado y  es el factor de descuento. — E ,  - .

Q-value:

Q, Q*, :

, Q-. Q-value, , Q-learning.

.

V « » . , , (action – a), V (). . .

(V)

, V, .

, , .

, p, , . , , , , . Q-Learning ?

a () (.. ) Q-learning (v). . (p).

, a’ Q- , . Q-learning (off-Policy).

2.2. State-Action-Reward-State-Action (SARSA)

SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .

Q

Q-learning: Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γmaxaQ(s_t₊₁,a)−Q(s_t,a_t)]

SARSA: Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γQ(s_t+1,a_t+1)−Q(s_t,a_t)]

a_t+1– s_t+1 .

, , Q- learning Q-, , a, Q- Q (s_{t + 1}, a).

SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (s_{t + 1}, a_t+1). ( SARSA, State-Action-Reward-State-Action).

, SARSA – on-policy , +1. , Q-.

Q-learning , a, , a s , a, Q (s_t₊₁, a). , Q-learning (, , ), Q

, , . , Q-learning , Q . , SARSA - , (on-policy).

2.3. Deep Q Network (DQN)

Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .

DQN Q-. , - Q .

2013 DeepMind DQN Atari, . . , . Q- , .

: ?

, Q-learning. , Q Q-learning:

φ s, θ , . , Q Q .

DQN:

1. : (RL) , . . , , « » .

2. : Q , , . C, , . , , .

2.4. Deep Deterministic Policy Gradient (DDPG)

DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .

DDPG «-» - . ? , .

(TD)

u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q

DDPG DQN. DDPG , . (action).

A la izquierda, el ruido se agrega a las acciones, a la derecha a los parámetros. — ,

, , , OpenAI.

All Articles