¿Personal o social? Cómo lograr la cooperación en un entorno de múltiples agentes

¡Oye! Mi nombre es Dmitry, y quiero contarles sobre nuestro artículo “Equilibrio entre preferencias racionales y otras en entornos competitivos y cooperativos”, que recientemente fue admitido en la conferencia AAMAS (A *). 





En este artículo, exploramos cómo se puede entrenar a un grupo de agentes para lograr sus propios objetivos en entornos mixtos sin interferir o incluso ayudarse entre sí. Analizamos varias soluciones existentes y ofrecimos las nuestras. La publicación resultó ser de alto nivel, los detalles técnicos están en el artículo .





Quienes somos

Mi nombre es Dmitry Ivanov , soy un estudiante graduado de tercer año en economía en St. Petersburg HSE. Trabajo en el grupo Agent Systems and Reinforcement Learning en JetBrains Research, así como en el International Laboratory for Game Theory and Decision Making en HSE.





  , 1 “ ” — -, , . JetBrains Research, -- .





, : , . , . — (. 1).





Higo.  1. El dilema del prisionero.
. 1.  .

. , : , . , 3 . , 2 . , , , 4 . : , , .. . .





— , (Peysakhovich and Lerer, 2017). , . . , — ‘Cooperate’ ‘Defect’. , . Sequential Social Dilemma (Leibo et al., 2017), , , .





, , — ( , ?) , . , ? : ?





: , (Rashid et al., 2018). : , . . (SW = Social Welfare): 





SW (r) = \ sum_i r_i

SW , , , (). — , . , . “” ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , — , . , ,





, : , VDN, QMIX, COMA . , credit assignment reward disentanglement — , . — . SW , SW — . — , , .





Cooperative Reward Shaping

— , , . , , , λ:





( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , “ ”. , , credit assignment. , .





, : , credit assignment . : , , — . , . , — — . — QMIX COMA!





? , . , . , SW -, . . , , BAROCCO — ?





. , — Eldorado (. 2). . — 1000 , +1. , -1. , . , . , .





Higo.  2. Miércoles Eldorado
. 2. Eldorado

:





  1. BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .





  2. BAROCCO , .. λ. , , .





Esperanza de vida (total para 2 agentes) Índice de Gini (menos = más justo)
( 2 ) ( = )

. 3. Eldorado. — . CRS BAROCCO λ=1 , . Selfish - , λ=0, BAROCCO CRS . — λ BAROCCO. — , — , . — .





:





  1. BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .





  2. BAROCCO , , . , , - .





  3. CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .





  4. , λ ( ) . 0.5. .





Fuente - Deeps of Reddit.
— Reddit.

λ. , , -, ( ), -,  — . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .





: . , , . , , , , .








All Articles