Artículos seleccionados sobre aprendizaje automático: estudios de caso, guías e investigaciones de septiembre de 2020
Comenzaremos nuestra selección de septiembre con un estudio de caso. Esta vez es solo uno, ¡pero qué!
No dejamos de admirar las posibilidades de GPT-3 y hablamos de las áreas de su aplicación, pero muchos a la vez ven en el algoritmo una amenaza para su profesión.
Han integrado el algoritmo en su editor visual para que los usuarios puedan elegir entre textos generados y escritos. Hasta ahora, el servicio solo le permite generar títulos, descripciones de productos y servicios y botones de llamada a la acción.
¿Por qué es esto tan interesante?La cuestión es que en la gestión y el marketing de productos se invierten muchos recursos en probar hipótesis. Qué título aumentará mejor el compromiso, o qué color y forma debe tener el botón para que el cliente realice la acción específica. Las respuestas a estas preguntas permiten que los productos tengan éxito.
El resultado de esta confrontación en particular no resolverá nada todavía, pero imagínense si el algoritmo no solo pudiera generar textos, sino también rastrear el comportamiento del usuario y modificar la interfaz. Ahora, recuerde que GPT-3 puede componer y crear componentes de reacción. Por eso es muy interesante seguir este experimento. En el momento de escribir este artículo, GPT-3 está a la cabeza por un pequeño margen, veamos cómo termina todo.
El modelo genera movimientos de labios para el habla, sincronizando así las transmisiones de audio y video. Se puede utilizar para transmisiones en línea, conferencias de prensa y doblaje de películas. En la demostración, puede ver cómo los labios de Tony Stark se adaptan al doblaje en diferentes idiomas. Además, si la conexión se deteriora durante las llamadas de Skype, el modelo puede generar cuadros que se perdieron debido a una falla en la señal y dibujarlos en función del flujo de audio. Los creadores también sugieren animar los labios de los personajes de memes para personalizar más el contenido. Al igual que los altavoces digitales, este modelo puede ajustar el movimiento de los labios al habla generada a partir del texto.
Cabe destacar que en mayo los autores publicaron el modelo Lip2Wav, que por el contrario “lee labios” y genera texto y sonido. Una red neuronal convolucional extrae características visuales, después de lo cual un decodificador de voz genera un espectrograma de tiza basado en ellas, y una voz se sintetiza usando un codificador de voz.
Nuevo algoritmo de aumento de video que elimina marcas de agua y objetos en movimiento completos, y también expande el campo de visión del video, teniendo en cuenta el movimiento del cuadro. Al igual que otros algoritmos similares, primero detecta y restaura los bordes de los objetos en movimiento. En este caso, los bordes dibujados no se ven naturales en la escena. La peculiaridad del método es que rastrea cinco tipos de píxeles adyacentes no localmente, es decir, ubicados en diferentes marcos, luego determina en cuál de ellos se puede confiar y utiliza estos datos para restaurar las áreas faltantes. El resultado es un video más fluido. Ya puede consultar el código fuente , pronto se agregará una colaboración.
La red neuronal se entrenó en una serie de imágenes de una escena con coordenadas marcadas del ángulo de visión, marcas de tiempo y parámetros de iluminación. Entonces aprendió a interpolar estos parámetros y mostrar imágenes intermedias. Es decir, habiendo recibido varias imágenes con un cubito de hielo que se derrite gradualmente o un vaso vacío en la entrada, el modelo puede generar imágenes en tiempo real teniendo en cuenta todas las posibles combinaciones de parámetros. Para que sea más fácil comprender de qué se trata, le recomendamos que solo vea la demostración en video . Se promete que el código fuente se publicará pronto.
Otra herramienta para eliminar objetos de fotografías basada en una red neuronal generativa. Esta vez es un marco de código abierto completo yAPI pública . Funciona de manera muy simple: cargue la imagen y dibuje la máscara del objeto que desea eliminar, y listo, sin procesamiento posterior adicional. El proyecto se implementa en un servidor web , por lo que puede probarlo fácilmente en el navegador. Por supuesto, hay artefactos, pero se adapta bien a imágenes simples.
retratos La fotografía de retratos a menudo adolece de una iluminación inadecuada. La posición y suavidad de las sombras y la distribución de la luz son limitaciones ambientales que afectan la calidad estética de la imagen. El editor de fotos ya no es necesario para eliminar sombras no deseadas: los investigadores de Berkeley presentan un algoritmo de código abiertoque elimina de manera realista el sombreado de la foto y le permite controlar la iluminación.
Una tarea igualmente común cuando se trabaja con fotografías es su restauración y mejora de la calidad. Esta herramienta de código abierto hace un buen trabajo mejorando la resolución de los retratos.
Este mes salieron varias herramientas interesantes de modelado 3D. Todos los que han trabajado con 3D saben que para crear modelos de alta calidad, se necesitan varios equipos fotográficos costosos y la capacidad de utilizar software complejo. Pero los algoritmos de aprendizaje automático se están utilizando activamente para facilitar las cosas a los artistas en este campo.
Facebook AI introdujo un sistema para crear maquetas en 3D de manos y cuerpo basado en el análisis de video monocular. La captura de movimiento funciona casi en tiempo real (9,5 fotogramas por segundo) y crea imágenes en 3D del cuerpo y las manos en forma de un modelo paramétrico unificado. A diferencia de otros enfoques existentes, este le permite capturar simultáneamente tanto los gestos de las manos como los movimientos de todo el cuerpo. El código fuente ya está disponible.
Otra tecnología de Facebook AI, que también está diseñada para simplificar el proceso de modelado 3D: la red neuronal extrae muchas conexiones entre la persona en la imagen y otros objetos y genera maquetas tridimensionales. Así, a partir de una sola fotografía, que muestra a una persona con algún objeto cotidiano, se crea un modelo 3D. El algoritmo determina las formas de personas y objetos, así como su ubicación espacial en condiciones naturales, en un entorno no controlado. Los creadores prometen lanzar el código fuente pronto, por lo que por ahora queda por creer los ejemplos de la demostración, que, no seamos astutos, son impresionantes.
El nuevo marco le permite crear y animar objetos 3D usando un solo boceto. Esto simplifica enormemente el proceso de animación de objetos, ya que no es necesario trabajar con fotogramas clave, mallas de múltiples ángulos y animación esquelética. El modelo crea un modelo tridimensional, que está inmediatamente listo para crear animaciones sin una configuración previa prolongada de varios parámetros que, por ejemplo, no permiten que los objetos se atraviesen entre sí.
El algoritmo crea modelos tridimensionales de muebles a partir de paralelepípedos rectangulares. El enfoque ShapeAssembly aprovecha las ventajas de los modelos procedimentales y generativos profundos: el primero captura un subconjunto de la variabilidad de la forma que se puede interpretar y editar, y el segundo captura la variabilidad y las correlaciones entre las formas que son difíciles de expresar por procedimientos. La red ya está bromeando diciendo que el siguiente paso es entrenar al integrador según las instrucciones de IKEA.
Con esto concluye el tema con el modelado 3D; para esta área, el mes resultó ser especialmente intenso. ¡Gracias por su atención!