Neurodigest: Aspectos destacados del aprendizaje automático de febrero de 2021



Como sabes, siempre incluimos en la colección las publicaciones más interesantes sobre el tema del aprendizaje automático, y se da prioridad a los proyectos con repositorios no vacíos. Entonces, febrero me complació con una serie de servicios en este sentido, así que comencemos con ellos. Vamos:





Artículos con conjuntos de datos y bibliotecas



Existe un recurso de este tipo Papers with Code, cuya misión corresponde directamente al nombre: agregar publicaciones del campo del aprendizaje automático que tienen código, así como brindar la oportunidad de ofrecer su propia implementación.



Este mes, lanzaron la sección Conjuntos de datos disponibles, que ya ha indexado más de 3000 conjuntos de datos de investigación. En el catálogo, puede buscar conjuntos de datos por frecuencia de menciones, alcance, tipo de datos e idioma admitido.



También agregaron la capacidad de buscar modelos de clasificación de imágenes previamente entrenados que se pueden ajustar en sus propios conjuntos de datos. Por el momento, ya hay más de 300 y el catálogo seguirá creciendo.



Búsqueda de modelos de Google



Accesibilidad: página del proyecto , repositorio



El éxito de una red neuronal a menudo depende de cuán ampliamente se pueda aplicar a diversas tareas. Al crear un modelo, debe tomar una serie de decisiones arquitectónicas complejas: qué tan profunda debe ser la red neuronal, qué tipos de capas usar en ella, etc.



Google ha presentado una plataforma que lo ayudará a encontrar la arquitectura adecuada para su conjunto de datos y tarea, lo que reducirá el tiempo de configuración y codificación y requerirá menos recursos computacionales.



La biblioteca le permite ejecutar algoritmos listos para usar en sus datos, independientemente del área temática, seleccione automáticamente la arquitectura óptima, conjuntos correctos de modelos o modelos destilados.



ZenML



Accesibilidad: marco MLOps del repositorio / sitio del proyecto que simplifica la transferencia de canalizaciones desde las computadoras portátiles a los entornos de producción. Reproducibilidad garantizada de los experimentos de entrenamiento debido al control de versiones de datos, código y modelos. La plataforma también le permite cambiar rápidamente entre entornos locales y en la nube, proporciona ayudantes listos para comparar y visualizar parámetros y resultados, almacenar en caché los estados de la canalización para iteraciones rápidas y mucho más.







TensorFlow 3D



Accesibilidad: artículo / repositorio



Con la proliferación de dispositivos que capturan datos 3D, como lidars y cámaras de profundidad, ha aumentado la necesidad de tecnología para procesar estos datos y comprender la escena 3D. Esto es necesario para navegar y trabajar en el mundo real de los coches y robots autónomos, así como para mejorar las tecnologías de RA.



Google presentó una biblioteca modular para aplicar el aprendizaje profundo a los datos 3D en TensorFlow. Contiene canales de capacitación y evaluación para la segmentación semántica 3D, clasificación de escenas, detección de objetos 3D y más.



MeInGame





Disponibilidad: artículo / repositorio



En los juegos de computadora, a menudo hay un editor de personajes que te permite cambiar la apariencia del jugador usando la configuración de varios parámetros. El algoritmo MeInGame te permite crear un personaje personalizado con solo una foto. La red neuronal predice la forma del rostro y su textura. Aunque los métodos basados ​​en 3D Morphable Face Model (3DMM) pueden generar un retrato en 3D a partir de imágenes individuales, la topología de malla suele ser diferente de las que se utilizan en la mayoría de los juegos. Los autores de este algoritmo afirman haber resuelto este problema.



SAM





Accesibilidad: artículo / repositorio



Simular el envejecimiento a partir de una sola fotografía de un rostro es extremadamente difícil, ya que es necesario simular cambios en ciertos rasgos faciales e incluso en la forma de la cabeza, manteniendo la identidad de la persona.



Internamente, se utiliza un StyleGAN, pero aquí los investigadores también utilizan una red de regresión de edad preentrenada con la que el codificador genera códigos ocultos correspondientes a la edad objetivo. El método trata el proceso de envejecimiento continuo como un problema de regresión entre la edad de entrada y la edad objetivo, proporcionando un control preciso sobre la imagen generada. El modelo le permite editar las imágenes generadas.



MODA





Disponibilidad: página del proyecto / demostración interactiva



Nuevo caso de aplicación StyleGAN para el ajuste de ropa virtual. El algoritmo transfiere la ropa de una fotografía de una persona a una fotografía de una persona, que se envía a la entrada. El método se basa en la interpolación del espacio oculto, teniendo en cuenta la pose de StyleGAN2, que trabaja con la forma del cuerpo, el cabello, el color de la piel de la persona objetivo. El algoritmo permite que la prenda se deforme según una forma corporal determinada, manteniendo el patrón y los detalles del material. El resultado son imágenes fotorrealistas con una resolución decente de 512x512.



NeRViS





Accesibilidad: Página del proyecto / Repositorio



Las técnicas de estabilización de video existentes recortan severamente los límites de los cuadros o crean artefactos y distorsión. Este algoritmo

estima de manera preliminar los campos de deformación densos y utiliza cuadros adyacentes para sintetizar un cuadro estabilizado completo. La novedad del enfoque es la síntesis espacial híbrida basada en el aprendizaje, que elimina los artefactos causados ​​por un flujo óptico inexacto y objetos que se mueven rápidamente.



Síntesis de vista estable



Disponibilidad: artículo / repositorio



Basado en un conjunto de fotografías que representan una escena desde puntos de vista distribuidos libremente, el algoritmo sintetiza nuevas vistas de la escena. El método trabaja sobre andamios geométricos, que se calcula en base a la fotogrametría SfM. La vista de destino se representa mediante una red convolucional a partir del tensor de características sintetizadas para todos los píxeles.



El artículo se publicó en noviembre del año pasado, pero el código solo estuvo disponible ahora.



JigsawGan



Accesibilidad: artículo



Red neuronal generativa auto-supervisada entrenada para resolver acertijos. Como entrada, el modelo acepta partes de la imagen ubicadas aleatoriamente y sin indicaciones restaura la imagen original a partir de ellas, es decir, el modelo no sabe cuál era la imagen originalmente.



PersonajeGAN





Disponibilidad: artículo / repositorio Una



red neuronal generativa, que se puede entrenar en solo unas pocas imágenes de un personaje en diferentes poses, para generar nuevas poses basadas en la ubicación de los puntos clave. Esto le permite animar imágenes estáticas. La novedad del enfoque es que la imagen se divide en capas, cada una de las cuales se procesa por separado. Esto resuelve el problema de las obstrucciones cuando un objeto extraño pasa a primer plano. Para mayor comodidad, se ha agregado una GUI que le permite ajustar manualmente las poses por puntos clave.



VAE discreto



Accesibilidad: el repositorio



En el último número, hablamos sobre el asombroso DALL-E. A fines de febrero, OpenAI creó un repositorio con el nombre del modelo, pero el modelo en sí aún no se ha lanzado, dentro de solo una parte del modelo, es decir, el paquete PyTorch para VAE discreto. Se trata de un autocodificador variacional que, en nuestro caso, genera imágenes a partir de descripciones textuales.



Nostalgia profunda



Disponibilidad: servicio en línea



Y finalmente, siempre es bueno cuando se hace un producto simple y comprensible basado en modelos. Entonces, la compañía MyHeritage, que se ocupa de cuestiones de genealogía y genealogías, aparentemente tomó el algoritmo del Modelo de primer orden, atornilló una interfaz de usuario conveniente e hizo un servicio basado en él para "animar" fotos.



El resultado son toneladas de contenido personalizado generado y un gran alcance viral. También dicen que el negocio de la IA es inútil.



Eso es todo, gracias por su atención y ¡nos vemos en un mes!



All Articles