Rompecabezas de IA

Cómo le enseñé a un agente a construir una jaula 2048 en 2048

AI ensambla la celda 2048
AI ensambla la celda 2048

¡Hola! Mi nombre es Rinat Maksutov, trabajo en la división de Servicios de Ingeniería Inteligente del departamento de Tecnología de la oficina rusa de Accenture y dirijo proyectos de desarrollo personalizados. Durante mi larga carrera en Axencher, he probado muchas áreas diferentes: desarrollo móvil, front-end, back-end e incluso ciencia de datos con mashlern. Sin embargo, mi historia no será sobre el trabajo, sino sobre un pasatiempo. Realmente disfruto aprender y explorar nuevas áreas en mis propios proyectos favoritos. Hoy les contaré sobre uno de ellos: cómo le enseñé al agente de aprendizaje por refuerzo (RL) a jugar el famoso rompecabezas "2048". El artículo deliberadamente no contendrá código, matemáticas, enfoques de vanguardia y los últimos descubrimientos en el campo, por lo que las personas que están bien familiarizadas con RL no descubrirán nada nuevo por sí mismas. Este artículo es una historia para el público en general sobrecómo me propuse un objetivo inusual y lo logré.

. , , Nanodegree Udacity (Nanodegree - ). Deep Learning Nanodegree , . 

RL, : , , - , , , - . , .

, RL , . , , , - , ( , ). 

, - , ( , RL), . - 2048 ( : https://play2048.co/). , (, , , ), , . , ( 0.9) ( 0.1). , , .

, 2048 . , 4096, 8192, . - 131 072, 2^17: 

Fuente: Wikipedia
: Wikipedia

. , , . , . , , , (, ), , - . , “” , , .

  1. - , “” , , , .

  2. ( , ) . , “” , . 

, , , . 

Reinforcement learning

, RL, - . - , . (, ), , . , , , , . , .

Fuente: https://medium.com/@dgquintero02/how-to-explain-machine-learning-to-your-family-77a3bac3593a
: https://medium.com/@dgquintero02/how-to-explain-machine-learning-to-your-family-77a3bac3593a

, , , .  , , , , . “”. , , . - “” - , . - “”, , , - ( discourage) . ( , ) .

Udacity . , , . : , , , . , , . , , . - - - , .

: AlphaGo, StarCraft . , , - , . , , . , , , . 

, . , , . , . 

, , : 1) , 2) , 3) . , , , - , . , , : , , . 

. - ( , ) , . - -, , , , StarCraft . , , , . , , , . , . , , - . , . , . , .

Otro meme con Boromir

2048 ( - , 2048 - ) - , , , , . 

: , Deep Q-network Udacity, , . . 

, 3 ( , ):

  • One-hot encoded (16 * 18 )

  • “ ”

  • Log2

  • 4 4

  • log2

  • log2

  • 10 , 1024, ε: 0.05, ε: 0.9999, 

  • 1, 3, 5, 20

  • ε ( ) 1.0 0.01

  • 100 000

  • ( )

  • 50 000 200 000

  • , , , , ..

()

  • “ ”: N , ,

  • “ ”: 3 ,

  • 2

  • 5-: 288-31024-4, ReLU Adam optimizer

  • 2, 4

  • 256, 512

  • learning rate

- , , - , - . .

, - . , .

, . - . “” , . , , 44, . fully-connected , , 116:

. , 512. , . , : 0 . , : , . 

- . , . , , - . , , , , , . , , , . 

. : , log2 . , , :

, . 512, 1024. . , . 

- , , . , . :

, a+a = b, b+b=c .., , a, b . (“+” - , “”). ? , , . , one-hot encoded . , 18, , , , . - . , , , , .

. , , , , . , . - . 

, , Space Invaders. Google .

Invasores espaciales.
Space Invaders.

, , “ ”. (“”), (“”) .

2048 . . , 2 , . , … . . , , . , , , 2 4. , , [ +  2 4]. , , , . - . 

-. , . , : , , - . , , : , . , , . 

, . , , . , , , . , . , , - . , , . 

, “” - . , , , . , , . . - . 1.0 0.1. , , , . , , , . - “” , . 

RL , , . , - , - , . , ( ) . , . , , . , , , , . , , - , “” - .

Distribución de las cuotas de las direcciones de jugadas elegidas en cada uno de los juegos.
.

, : , “” - .

, . , . , , , , , . , . - - , - , , , . , - , . , , . , , . , “” ( - - , , , ). , “” , .

La señal WOW
The WOW signal

. - - 2048.

, 2048 60 . , , . , , 1024. , 1024 , - 30 1024. , “” 2048, , , , , , - 4096.

, , . 20- , 2048 ( 16:40).

( !), . , 2048 - . , - GitHub ! , . !

PS: , back-end Python Java, front-end React. , --. , , proof-of-concept . , , !




All Articles