Una selección de artículos sobre aprendizaje automático: casos, guías e investigación para diciembre de 2020





El último mes del año no puede considerarse un buen momento para anuncios a gran escala, ya que la mayoría está cambiando al modo "vamos después de las vacaciones", pero a juzgar por esta rica colección en el campo del aprendizaje automático, el trabajo estaba en pleno apogeo en diciembre. Por eso, con un ligero retraso, por favor conozca el duodécimo número del compendio, en el que le contaremos lo más importante que sucedió en ML a finales de 2020.



MuZero



DeepMind publicó inesperadamente un artículo sobre MuZero , un algoritmo que puede jugar tanto a juegos de mesa de lógica populares como el ajedrez, Shogi y Go, como a los videojuegos de Atari como Pac-Man.



MuZero intenta modelar no todo el entorno, sino solo ciertos aspectos que son importantes para el proceso de toma de decisiones estratégicas del agente. El algoritmo recopila constantemente información sobre el estado actual y anterior del juego, estudiando así prohibiciones y recompensas. Así, por ejemplo, el modelo entiende que en el ajedrez el objetivo del juego es dar jaque mate y en pakman es comerse el punto amarillo.



Hay otra ventaja importante: MuZero reutiliza el modelo aprendido para mejorar la planificación, en lugar de recopilar nuevos datos sobre el entorno. Por ejemplo, en los juegos de Atari con un entorno cambiante complejo, el algoritmo utilizó el modelo aprendido el 90% del tiempo para reprogramar lo que debería haberse hecho en sesiones de juegos anteriores.



Por qué es importante. Esencialmente, MuZero es un modelo de propósito general que se puede utilizar para resolver problemas complejos del mundo real que son difíciles de reducir a reglas simples. DeepMind ofrece tal analogía: el nuevo enfoque es similar a cómo una persona en un clima nublado decide tomar un paraguas para mantenerse seca, mientras que los enfoques anteriores intentarían modelar el orden en el que caerían las gotas de lluvia.







Naturaleza infinita



Todo el mundo ha visto al menos una vez una espectacular grabación de un dron volando a lo largo de la pintoresca costa. Un algoritmo entrenado en videos similares de youtube sintetiza video a partir de una imagen estática.



La tarea es muy difícil, ya que es necesario generar nuevas imágenes, que pueden ser muy diferentes de los datos de entrada: la foto a menudo contiene árboles y rocas que oscurecen los fragmentos del paisaje ubicados detrás de ellos.



La novedad del enfoque es que es capaz de sintetizar imágenes teniendo en cuenta la geometría de la escena, que cubre grandes distancias en cientos de fotogramas. El conjunto de datos ya está disponible , pero el código fuente tendrá que esperar.







Fotografía de viajes en el tiempo



Una red neuronal para la restauración y coloración de fotos antiguas, que recuerda a DeOldify. A diferencia de los filtros de recuperación de imagen convencionales, que aplican operaciones independientes como la reducción de ruido, el color y la ampliación, StyleGAN2 se utiliza aquí para sintetizar un rostro cercano al original. La salida son fotografías de retrato en color y alta resolución. También se promete que el código se implementará más adelante.







pi-GAN



Otro modelo GAN que genera una representación 3D de un objeto a partir de varias imágenes 2D no asignadas. La demostración muestra cómo se puede usar el modelo para rotar la cabeza, similar a lo que Nvidia demostró anteriormente en Maxine.







Campos de flujo de escena neuronal



Un nuevo método NeRf que crea una representación de escena dinámica a partir de un video tomado con una cámara convencional. Esto permite, por ejemplo, congelar el encuadre y mover la cámara, o viceversa para fijar la cámara, pero como para rebobinar el tiempo. El algoritmo dibuja un entorno con una estructura compleja, por ejemplo, con objetos delgados como celosías y objetos en movimiento como pompas de jabón.







YolactEdge



El primer método de segmentación de imágenes instantánea que funciona en tiempo real en dispositivos débiles. El código fuente ya está disponible .



ModNet



Una tecnología que le permite no solo eliminar cualitativamente el fondo de los retratos, sino también reemplazar el fondo con video. De hecho, puede ser un buen sustituto de una clave cromática. A diferencia del remove.bg de pago, también hay un código fuente , una colaboración e incluso una aplicación web con una interfaz simple, en la que solo puedes probar el trabajo con fotos.



Voz s



Facebook finalmente ha publicado el código fuente de un algoritmo que detecta las voces de varias personas que hablan en grabaciones de audio.





Hypersim



Apple ha publicado un conjunto de datos con máscaras de segmentación para escenas falsas. Casi dos terabytes de renderizaciones de sala de ultra alta resolución. El marcado de datos aquí está a nivel de píxeles individuales.



Linea de arte



Un modelo abierto que transforma un retrato fotográfico en un dibujo a lápiz. Hasta ahora, no se adapta bien a las texturas de la ropa y las sombras, pero en general da resultados decentes. Se basa en la arquitectura DeOldify, que permite un buen reconocimiento facial.



Eso es todo, diciembre resultó ser sorprendentemente intenso. El comienzo del año también promete ser interesante. No podemos esperar a ver lo que viene en enero basado en Dall-E de OpenAI. Como dicen, ¡estad atentos!



All Articles