¡Oye! Mi nombre es Dmitry, y quiero contarles sobre nuestro artículo “Equilibrio entre preferencias racionales y otras en entornos competitivos y cooperativos”, que recientemente fue admitido en la conferencia AAMAS (A *).
En este artículo, exploramos cómo se puede entrenar a un grupo de agentes para lograr sus propios objetivos en entornos mixtos sin interferir o incluso ayudarse entre sí. Analizamos varias soluciones existentes y ofrecimos las nuestras. La publicación resultó ser de alto nivel, los detalles técnicos están en el artículo .
Quienes somos
Mi nombre es Dmitry Ivanov , soy un estudiante graduado de tercer año en economía en St. Petersburg HSE. Trabajo en el grupo Agent Systems and Reinforcement Learning en JetBrains Research, así como en el International Laboratory for Game Theory and Decision Making en HSE.
, 1 “ ” — -, , . JetBrains Research, -- .
, : , . , . — (. 1).
. , : , . , 3 . , 2 . , , , 4 . : , , .. . .
— , (Peysakhovich and Lerer, 2017). , . . , — ‘Cooperate’ ‘Defect’. , . Sequential Social Dilemma (Leibo et al., 2017), , , .
, , — ( , ?) , . , ? : ?
: , (Rashid et al., 2018). : , . . (SW = Social Welfare):
SW , , , (). — , . , . “” ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , — , . , ,
, : , VDN, QMIX, COMA . , credit assignment reward disentanglement — , . — . SW , SW — . — , , .
Cooperative Reward Shaping
— , , . , , , λ:
( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , “ ”. , , credit assignment. , .
, : , credit assignment . : , , — . , . , — — . — QMIX COMA!
? , . , . , SW -, . . , , BAROCCO — ?
. , — Eldorado (. 2). . — 1000 , +1. , -1. , . , . , .
:
BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .
BAROCCO , .. λ. , , .
. 3. Eldorado. — . CRS BAROCCO λ=1 , . Selfish - , λ=0, BAROCCO CRS . — λ BAROCCO. — , — , . — .
:
BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .
BAROCCO , , . , , - .
CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .
, λ ( ) . 0.5. .
λ. , , -, ( ), -, — . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .
: . , , . , , , , .