(Q-learning, SARSA, DQN, DDPG)
El aprendizaje por refuerzo (RL, en adelante RL) se refiere a un tipo de método de aprendizaje automático en el que un agente recibe una recompensa diferida en el siguiente paso de tiempo para evaluar su acción anterior. Se utilizó principalmente en juegos (por ejemplo, Atari, Mario), con un rendimiento a la par o incluso superior al de los humanos. Recientemente, cuando el algoritmo se desarrolla en combinación con redes neuronales, es capaz de resolver problemas más complejos.
Debido al hecho de que existe una gran cantidad de algoritmos OP, no es posible compararlos todos entre sí. Por lo tanto, este artículo discutirá brevemente solo algunos algoritmos conocidos.
1. Aprendizaje por refuerzo
Un OP típico tiene dos componentes, Agente y Entorno.
– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .
. , , .
:
1. Action (A, a): , ()
2. State (S,s):
3. Rewrd (R,r): ,
4. Policy (π ): - , , (a’) .
5. Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )
6. Q-value (Q): Q V, , a ( ). Qπ(s, a) π s a
. T(s1|(s0, a)) S0 a S1 . , , , a . , , (S*S*A )
, . / .
2.
2.1. Q-learning
Q-learning , :
Q-value:
Q, Q*, :
, Q-. Q-value, , Q-learning.
.
V « » . , , (action – a), V (). . .
(V)
, V, .
, , .
, p, , . , , , , . Q-Learning ?
a () (.. ) Q-learning (v). . (p).
, a’ Q- , . Q-learning (off-Policy).
2.2. State-Action-Reward-State-Action (SARSA)
SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .
Q
Q-learning: Q(st,at)←Q(st,at)+α[rt+1+γmaxaQ(st+1,a)−Q(st,at)]
SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]
at+1 – st+1 .
, , Q- learning Q-, , a, Q- Q (st + 1, a).
SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (st + 1, at+1). ( SARSA, State-Action-Reward-State-Action).
, SARSA – on-policy , +1. , Q-.
Q-learning , a, , a s , a, Q (st+1, a). , Q-learning (, , ), Q
, , . , Q-learning , Q . , SARSA - , (on-policy).
2.3. Deep Q Network (DQN)
Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .
DQN Q-. , - Q .
2013 DeepMind DQN Atari, . . , . Q- , .
: ?
, Q-learning. , Q Q-learning:
φ s, θ , . , Q Q .
DQN:
1. : (RL) , . . , , « » .
2. : Q , , . C, , . , , .
2.4. Deep Deterministic Policy Gradient (DDPG)
DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .
DDPG «-» - . ? , .
(TD)
u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q
DDPG DQN. DDPG , . (action).
, , , OpenAI.