Zoología generativa con redes neuronales.

imagen



Hace un par de años, había un artículo en mi lista de lectura llamado Progreso y evolución de GAN para mejorar la calidad, la estabilidad y aumentar la variación . Describe el crecimiento gradual de las redes adversas generativas que comenzaron con imágenes de baja resolución y aumentaron la granularidad a medida que el aprendizaje progresaba. Muchas publicaciones se han dedicado a este tema ya que los autores utilizaron su idea para crear imágenes realistas y únicas de rostros humanos.



imagen


Imágenes de muestra generadas por GAN



Al observar estas imágenes, parece que otras redes neuronales necesitarán estudiar muchos ejemplos para poder crear lo que producen las GAN. Algunos factores parecen ser relativamente simples y bien fundamentados, por ejemplo, que el color de ambos ojos debe coincidir. Pero los otros aspectos son fantásticamente complejos y muy difíciles de articular. Entonces, por ejemplo, ¿qué detalles se necesitan para unir los ojos, la boca y la piel en una imagen facial completa? Por supuesto, estoy hablando de la máquina estadística como persona, y nuestra intuición puede engañarnos; puede resultar que haya relativamente pocas variaciones de trabajo, y el espacio de solución es más limitado de lo que imaginamos. Probablemente lo más interesante no son las imágenes en sí, sino el terrible efecto que tienen sobre nosotros.



Algún tiempo después , mi podcast favorito mencionaba PhyloPic , una base de datos de imágenes de siluetas de animales, plantas y otras formas de vida. Reflexionando sobre estas líneas, me preguntaba: ¿qué pasaría si entrena un sistema como el descrito en el artículo "GAN progresivas" en un conjunto muy diverso de datos similares? ¿Terminaremos con muchas variedades de varios tipos conocidos de animales, o tendremos muchas variaciones que darán lugar a una zoología especulativa impulsada por redes neuronales? No importa cómo funcionó, estaba seguro de que podría obtener algunos buenos dibujos de esto para mi pared de estudio, así que decidí satisfacer mi curiosidad con un experimento.





Adapté el código del artículo de Progressive GAN y entrené el modelo a través de 12,000 iteraciones usando la potencia de Google Cloud (8 GPU NVIDA K80) y todo el conjunto de datos PhyloPic. El tiempo total de entrenamiento, incluidos algunos errores y experimentos, fue de 4 días. Utilicé el modelo entrenado final para crear 50K imágenes individuales y luego pasé horas mirando los resultados, categorizando, filtrando y haciendo coincidir las imágenes. También edité algunas de las imágenes un poco, rotándolas para que todas las criaturas apunten en la misma dirección (para lograr la satisfacción visual). Este enfoque práctico significa que lo que ves a continuación es una especie de colaboración entre mí y la red neuronal: fue un trabajo creativo y le hice mis propias modificaciones.



imagen







Lo primero que me sorprendió fue lo estéticamente agradables que fueron los resultados. Gran parte de esto es sin duda un reflejo del buen gusto de los artistas que crearon las imágenes originales. Sin embargo, también hubo sorpresas agradables. Por ejemplo, parece que cada vez que una red neuronal ingresa a un área de incertidumbre, ya sean piezas pequeñas que aún no ha dominado, o vuelos de fantasía biológica borrosa, aparecen aberraciones cromáticas en la imagen. Esto es curioso porque el conjunto de entrada es completamente en blanco y negro, lo que significa que el color no puede ser una solución a ningún problema generativo que se adoptó al entrenar el modelo. Cualquier color es puro artefacto de la mente mecánica. Sorprendentemente, uno de los factores que constantemente causan aberración cromática son las alas de los insectos voladores. Esto lleva al hechoque el modelo genera cientos de variaciones de "mariposas" de colores brillantes como las que se muestran arriba. Me pregunto si esto podría ser una observación útil: si entrena un modelo usando solo imágenes en escala de grises y aún requiere imágenes a todo color, los puntos de color pueden ser una forma útil de mostrar áreas donde el modelo no puede mostrar con precisión el conjunto de entrenamiento.



La mayor parte de la producción es una gran variedad de siluetas completamente reconocibles: aves, varios tetrápodos, muchos pequeños dinosaurios carnívoros elegantes, patas de lagarto, peces, escarabajos, aracnoides y humanoides.



imagen



Aves



imagen



Cuadrúpedos



imagen



Dinosaurios Escarabajos de



imagen



Piscis Homínidos



imagen







imagen







Cosas raras





Tan pronto como las criaturas que conocemos terminan, nos enfrentamos a cosas desconocidas. Una de las preguntas que tuve fue la siguiente: ¿Habrá planes corporales plausibles de animales que no existan en la naturaleza (quizás híbridos de criaturas incluidas en el conjunto de datos de entrada)? Mediante una búsqueda cuidadosa y un poco de pareidolia, descubrí cientos de pájaros de cuatro patas, ciervos con cabeza de serpiente y otros monstruos fantásticos.



imagen



Monstruos



Yendo aún más en la oscuridad, el modelo ha generado extraños patrones abstractos y entidades no identificables que crean un cierto sentido de su "vivacidad".



imagen



Criaturas abstractas



imagen



no identificables



Muestreo aleatorio



Lo que no es visible en las imágenes de arriba es la abundancia de variación en los resultados. He impreso y enmarcado varios de estos conjuntos de imágenes, y el efecto de cientos de imágenes pequeñas y detalladas una al lado de la otra es bastante sorprendente. Para dar una idea de la escala del conjunto de datos completo, incluyo uno de los ejemplos de impresión a continuación: esta es una muestra aleatoria de un corpus de imágenes sin filtrar.



imagen



imagen



Aprenda los detalles de cómo obtener una profesión solicitada desde cero o subir de nivel en habilidades y salario completando los cursos en línea pagos de SkillFactory:











All Articles