Cómo los sistemas de inteligencia artificial apuntan a simplificar la ingeniería de sonido

Este fin de semana decidimos hablar sobre los desarrollos de dos universidades estadounidenses, que ayudan a generar una escala sonora suficientemente creíble para videos mudos.





Fotos libres para usar sonidos / Unsplash



La difícil tarea del matraca



Los sonidos para películas y programas de televisión, por ejemplo, el susurro de la lluvia, son muy difíciles de grabar de la manera correcta en el plató en el momento de filmar un fragmento en particular. Habrá mucho ruido extraño, es posible que haya conflictos con las voces de los actores y otros equipos. Por esta razón, casi todos los sonidos se graban por separado y se mezclan durante la edición. Los que hacen ruido están haciendo esto .



Si una película necesita reproducir el sonido de una ventana rota, los diseñadores de sonido van al estudio y comienzan a romper cristales en condiciones acústicas controladas. La grabación se realiza hasta que el sonido coincide con lo que está sucediendo en la pantalla. En casos particularmente difíciles, esto puede requerir decenas de iteraciones, lo que complica y aumenta el costo de la realización de películas.



Los ingenieros de la Universidad de Texas sugirieronOpción alternativa. Desarrollaron un sistema de inteligencia artificial que detecta lo que está sucediendo en el marco y sugiere automáticamente una escala.



Cómo funciona



Los ingenieros describieron cómo funciona el sistema en su trabajo para el IEEE ( PDF ). Diseñaron dos modelos de aprendizaje automático. El primero extrae características de las imágenes del metraje, por ejemplo, el color. El segundo modelo analiza el movimiento de un objeto en diferentes marcos y determina su naturaleza para seleccionar el sonido apropiado.



Para la formación de la serie acústica, los ingenieros han desarrollado el programa AutoFoley. Genera un nuevo sonido basado en miles de muestras de audio breves, con el sonido de la lluvia, el tic-tac de un reloj, un caballo al galope. El resultado del trabajo es bastante convincente:





Desafortunadamente, el sistema tiene una serie de limitaciones serias hasta ahora. Es adecuado para procesar grabaciones en las que el sonido no tiene por qué coincidir perfectamente con el vídeo. De lo contrario, la desincronización se vuelve notable, como en este video . Además, el objeto debe estar constantemente presente en el marco para que el modelo MO pueda reconocerlo. Ahora los desarrolladores están involucrados en el registro de patentes, pero luego planean arreglar las fallas.



¿Quién más está involucrado en tales proyectos?



En 2016, expertos del MIT y Stanford introdujeron un modelo de aprendizaje automático capaz de expresar videos en silencio. Predice el sonido basándose en una propiedad de un objeto en el marco, por ejemplo, su material. Como experimento, los ingenieros subieron un video al sistema en el que una persona golpea una baqueta en varias superficies: metal, tierra, pasto y otras.





Los desarrolladores evaluaron la efectividad del algoritmo mediante una encuesta en línea. Los más realistas fueron los sonidos de las hojas y la suciedad (el 62% de los encuestados los llamó reales) y los menos, la madera y el metal. El metal sonaba natural solo el 18% del tiempo.



Este sistema también debe mejorarse. Genera sonidos que ocurren cuando los objetos chocan, pero no puede recrear la matriz acústica para el ruido del viento. Además, el algoritmo falla si los objetos se mueven demasiado rápido. A pesar de este hecho, estas soluciones tienen el potencial: pueden simplificar el trabajo de los productores de ruido y transformar la industria cinematográfica.






« Hi-Fi»:



:

?

«, , »: ,

, :

«»:







All Articles