Se trata de la "zanahoria" virtual: Uber ha creado un algoritmo que puede vencer a una persona en el juego Atari.



En el laboratorio de IA, Uber AI Labs ha creado una nueva familia de algoritmos Go-Explore. El algoritmo se basa en el aprendizaje por refuerzo. Go-Explore supera a la mayoría de los diseños existentes cuando se prueba en los juegos clásicos de Atari de los años 80.



La IA de Uber jugó 11 de los juegos más difíciles en total, incluidos Montezuma's Revenge y Pitfall . En términos de la cantidad de puntos anotados, caminó alrededor de la gente. El algoritmo no se está desarrollando por el bien de los juegos: en un futuro cercano, el algoritmo se puede utilizar para enseñar robótica, procesar lenguajes naturales, crear nuevas drogas, etc. ¿Cuál es la base del algoritmo?



Aprendizaje reforzado



Comencemos recordando qué es el aprendizaje por refuerzo y por qué tiene un alto potencial.



Esta es una forma bien conocida de entrenamiento de redes neuronales. La ventaja de esta tecnología está en un elemento llamado agente . No trabaja de forma aislada, sino que aprende a interactuar con el entorno. El entorno reacciona a las acciones del agente, creando un efecto gratificante.



La IA está tratando de obtener una zanahoria virtual, por lo que actúa sobre la base de la posibilidad de recibir una recompensa. Si esto no trae, entonces la próxima vez que la operación se considere menos deseable.



En el contexto de una utilidad dada, el entrenamiento de recompensa maximiza el resultado.



¿Qué algoritmo creó Uber?



La principal característica distintiva del algoritmo de Uber es recordar estados de perspectiva anteriores. Además, el algoritmo no solo puede reproducirlos, sino que también realiza reconocimientos . Como si hiciera la pregunta una y otra vez: "¿Y si?" Y buscando una nueva respuesta mejor. Gracias a dicha cadena, es posible aumentar la eficiencia del algoritmo de aprendizaje.



La familia de algoritmos de AI Uber Labs tiene una capacidad importante para recordar posibles estados previos. En pequeñas iteraciones, el algoritmo crea un archivo de estados. Y ellos, a su vez, se agrupan en celdas.



El flujo de trabajo Go-Explore, las fases de exploración y robustez de



Go-Explore resuelven dos problemas importantes del aprendizaje de recompensas.



Primer problema. El algoritmo pierde interés en estados previamente atravesados. Además, algunas de estas condiciones pueden ser prometedoras, pero el algoritmo comienza a ignorarlas.



Segundo problema. El proceso de investigación evita una reversión a los primeros estados del algoritmo. En lugar de retroceder, la IA se aleja demasiado del punto de partida y escala arbitrariamente las acciones aleatorias.



Probando el algoritmo en juegos



Uber recurrió a los juegos clásicos de Altari para asegurarse de que su desarrollo fuera efectivo. Tomaron el más difícil de los juegos, el más difícil de manejar para una computadora. Las dificultades surgen de una recompensa demasiado rara. En tales casos, cientos de operaciones pasan entre la acción del algoritmo y el resultado exitoso. Resulta difícil determinar exactamente qué acciones ayudaron a recibir una recompensa virtual.





Entonces, ¿cómo maneja el algoritmo de Uber esto? Envía estados similares a una celda. El ciclo comienza seleccionando estados de una celda, donde se clasifican por peso. En este caso, se da preferencia a los estados recientemente encontrados, desde los cuales se exploran nuevas áreas. Luego, el archivo se actualiza. Así, Go-Explore procesa el máximo número de opciones disponibles y, lo más importante, no pierde los estados más interesantes.



Además, el algoritmo tiene la opción de hacer robustezencontrado soluciones y excluir interferencias externas o. Esta opción reduce el nivel de ruido en las trayectorias encontradas. ¿Por qué es necesario? En Atari, el entorno y las acciones están bien definidos: los movimientos específicos conducen a los resultados esperados. Para reducir el determinismo, se introdujeron retrasos artificiales en el juego. De modo que el algoritmo no solo realiza acciones previamente verificadas, sino que también aprende en condiciones cercanas a las reales.



Como resultado, Go-Explore mostró buenos resultados en el juego en dos situaciones:



  1. En caso de desconocido, cuando el algoritmo carece de información primaria.
  2. Si hay información: el algoritmo conoce la entrada (coordenadas, claves, etc.).


En el segundo caso, como se esperaba, los resultados son mayores. Entonces, Go-Explore en Montezuma's Revenge superó el resultado de un jugador humano en un 42.5%, ganando 1.73 millones de puntos.



Go-Explore para robots





Además de los juegos de Atari, la familia de algoritmos se probó en un brazo robótico. Go-Explore realizó con éxito los movimientos del brazo del robot en el simulador, donde era necesario reorganizar los artículos en los estantes. Además, el brazo robótico no solo podía reorganizarlos, sino también sacarlos de detrás de las puertas con cerraduras.






All Articles