Redes convolucionales temporales: revolucionando el mundo de las series temporales

La traducción del artículo se preparó la víspera del inicio del curso “Deep Learning. Básico " .










En este artículo, hablaremos sobre las últimas soluciones innovadoras de TCN. Para empezar, utilizando el ejemplo de un detector de movimiento, consideraremos la arquitectura de las redes convolucionales temporales y sus ventajas sobre los enfoques tradicionales como las redes neuronales convolucionales (CNN) y las redes neuronales recurrentes (RNN). Luego hablamos de ejemplos recientes de aplicaciones TCN, incluida la predicción de tráfico mejorada, el localizador y detector de sonido y la predicción probabilística.



Una breve descripción general de TCN



El trabajo fundamental de Lea et al. (2016) fue pionero en el uso de redes convolucionales temporales para segmentar acciones basadas en video. Por lo general, el proceso se divide en dos etapas: primero, el cálculo de características de bajo nivel usando (más a menudo) CNN, que codifica información espacio-temporal, y en segundo lugar, la entrada de características de bajo nivel en el clasificador, que recibe información temporal de alto nivel usando ) RNN. La principal desventaja de este enfoque es la necesidad de dos modelos separados. TCN ofrece un enfoque unificado para cubrir ambos niveles de información de manera jerárquica.



La siguiente figura muestra la estructura del codificador-decodificador, la información sobre la arquitectura se puede encontrar en los dos primeros enlaces al final del artículo. Las preguntas más críticas se resuelven de la siguiente manera: TCN puede tomar una serie de cualquier longitud y obtener la misma longitud en la salida. La convolución casual se utiliza cuando existe una arquitectura de red unidimensional completamente convolucional. La característica clave es que el valor de salida en el momento t se contrae solo con los elementos que ocurrieron en el tiempo anterior.







El rumor en torno a TCN ha llegado incluso a la naturaleza, con una publicación reciente de Jan et al. (2020) sobre el uso de TCN en la predicción meteorológica. En su trabajo, los autores realizaron un experimento comparando TCN y LSTM. Uno de los resultados fue la conclusión de que TCN hace un buen trabajo al pronosticar series de tiempo.







Las siguientes secciones presentan la implementación y extensión del TCN clásico.



Mejor predicción de tráfico



Los servicios de viajes compartidos y de navegación en línea pueden mejorar la previsión del tráfico y mejorar la experiencia en la carretera. Reducir la congestión del tráfico, reducir la contaminación, conducir de forma segura y rápida son solo algunos de los objetivos que se pueden lograr mejorando la previsión del tráfico. Dado que este problema se basa en datos en tiempo real, se deben utilizar los datos de tráfico acumulados. Por esta razón, Dai et al. (2020) introdujeron recientemente una red convolucional de gráficos espacio-temporales híbridos (H-STGCN). La idea básica es aprovechar la relación de densidad de flujo deslizante lineal por partes y convertir el próximo volumen de tráfico en su tiempo de tráfico equivalente.Uno de los enfoques más interesantes que han utilizado en su trabajo es la convolución de gráficos para obtener la dependencia del tiempo. La matriz de adyacencia compuesta refleja las características inherentes de la aproximación del tráfico (lea el artículo de Lee de 2017 para obtener más información). La siguiente arquitectura proporciona cuatro módulos para describir todo el proceso de pronóstico.







Localización y detección de eventos sonoros



El área de localización y detección de audio (SELF) sigue creciendo. En la navegación autónoma, la comprensión del entorno juega un papel importante. Girjis et al. (2020) propusieron recientemente una nueva arquitectura de eventos de audio SELF-TCN. Un grupo de investigadores afirma que su marco supera a las soluciones actuales en esta área, reduciendo el tiempo de formación. En su SELDnet (la arquitectura se muestra a continuación), el audio multicanal muestreado a 44,1 kHz extrae la fase y la magnitud del espectro utilizando la transformada de Fourier a corto plazo y los extrae como características de entrada independientes. Luego se conectan los bloques convolucionales y los bloques recurrentes (GRU bidireccionales), y luego viene un bloque completamente conectado. Al salir de SELDnet, puede obtener la detección de eventos de audio y la dirección de donde proviene el audio.







Y para superar la solución existente, los autores introdujeron SELD-TCN:







dado que las convoluciones extendidas permiten que la red procese diferentes entradas, es posible que se requiera una red más profunda (que se verá afectada por gradientes inestables durante la propagación inversa de errores). Los autores del estudio pudieron resolver este problema adaptando la arquitectura WaveNet (Dario et al., 2017). Demostraron que no se requieren capas recurrentes para las tareas SELD y pudieron determinar las horas de inicio y finalización de los eventos de sonido activos.



Pronóstico probabilístico



Se puede aplicar un nuevo marco desarrollado por Chen et al. (2020) para estimar la densidad de probabilidad. La previsión de series de tiempo mejora muchos escenarios de decisiones empresariales (por ejemplo, la gestión de recursos). El pronóstico probabilístico le permite extraer información de datos históricos y minimizar la incertidumbre de eventos futuros. Cuando la tarea de pronóstico es predecir millones de series de tiempo relacionadas (como en el negocio minorista), se necesitan recursos informáticos y mano de obra prohibitivos para estimar los parámetros. Para resolver estas dificultades, los autores propusieron un sistema de estimación y pronóstico de densidad basado en CNN. Su estructura puede aprender la correlación oculta entre las series. La novedad científica en su trabajo radica en su propuesta de TCN profunda, representada en su arquitectura:







La implementación de módulos codificador-decodificador puede ayudar en el desarrollo de aplicaciones a gran escala.



Conclusión



En este artículo, revisamos trabajos recientes relacionados con las redes convolucionales temporales, que son superiores de una forma u otra a los enfoques clásicos de CNN y RNN para resolver problemas de series de tiempo.



Fuentes



  • Lea, Colin y col. "Redes convolucionales temporales: un enfoque unificado para la segmentación de acciones". Congreso Europeo de Visión por Computador. Springer, Cham, 2016.
  • Lea, Colin y col. "Redes convolucionales temporales para la segmentación y detección de acciones". actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones. 2017.
  • Yan, Jining y col. "Redes convolucionales temporales para la predicción avanzada de enSo". Informes científicos 10.1 (2020): 1-15.
  • Li, Yaguang, et al. “Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.” arXiv preprint arXiv:1707.01926 (2017).
  • Rethage, Dario, Jordi Pons, and Xavier Serra. “A wavenet for speech denoising.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
  • Chen, Yitian, et al. “Probabilistic forecasting with temporal convolutional neural network.” Neurocomputing (2020).
  • Guirguis, Karim, et al. “SELD-TCN: Sound Event Localization & Detection via Temporal Convolutional Networks.” arXiv preprint arXiv:2003.01609 (2020).








:






All Articles