Redes neuronales que protegen las reglas de tráfico



Las infracciones de las normas de tráfico (SDA) por parte de los conductores conllevan riesgos operativos, de reputación y legales para las organizaciones.



Anteriormente, se analizaron grabaciones de video de vehículos oficiales para identificar violaciones. Este es un proceso rutinario y que requiere mucho tiempo, ya que grandes volúmenes de video se procesaron manualmente. Se decidió automatizar este proceso y crear un modelo para detectar infracciones de tráfico para formar una selección de video orientada al riesgo.



En primer lugar, se decidió buscar infracciones de tráfico tan graves como cruzar una doble línea continua y conducir en un semáforo en rojo.



Para la segmentación de imágenes y la detección de marcas viales, se utilizó una red neuronal convolucional de la arquitectura U-Net. Esta arquitectura es una secuencia de capas de convolución y agrupación, que primero reducen la resolución espacial de la imagen y luego la aumentan, ya que previamente combinaron las imágenes con los datos y las pasaron a través de otras capas de convolución.



Para entrenar el modelo, se necesitaba un conjunto de datos de entrenamiento. Desafortunadamente, todos los conjuntos de datos encontrados de acceso abierto consistieron en fotografías de carreteras no de Rusia. Los resultados de la capacitación del modelo en carreteras extranjeras fueron decepcionantes: el modelo a menudo simplemente se negaba a percibir nuestras marcas viales nacionales como marcas. Por lo tanto, se decidió comenzar a crear una muestra de capacitación de forma independiente. Se cortaron alrededor de 1,500 capturas de pantalla del video de las grabadoras, y se les marcó el camino usando el servicio Supervise.ly (Fig. 1).







El modelo entrenado en tal conjunto de datos se hizo capaz de reconocer las marcas viales en nuestros videos de los grabadores. La red neuronal encuentra líneas continuas en el video y, si contienen al menos un número predeterminado de píxeles (para que no se tengan en cuenta las líneas aleatorias, discontinuas o no continuas), las aproxima en una línea recta, que nuestro automóvil ya no debería cruzar.







La Figura 2 muestra cómo funciona U-Net: arriba está la grabación original del parabrisas, abajo está un ejemplo de la red neuronal, donde las áreas verdes son la máscara de señalización vial y las delgadas líneas rojas son la aproximación de las marcas de línea.



El modelo se mostró muy bien en el procesamiento de la mayoría de los videos de las grabadoras, pero debe tenerse en cuenta que surgieron dificultades al analizar una carretera cubierta de nieve o un video filmado en la oscuridad; en algunos casos, las marcas simplemente no son visibles.



Para determinar la presencia de semáforos y automóviles, se utilizó una red neuronal previamente entrenada Darknet + Yolo v3. Esta red neuronal es una versión mejorada de la arquitectura YOLO, que significa You Only Look Once. La característica principal de YOLO v3 es que tiene tres capas de salida, cada una de las cuales está diseñada para detectar objetos de diferentes tamaños.



La característica principal de esta arquitectura en comparación con otras es que la mayoría de los sistemas aplican la red neuronal varias veces a diferentes partes de la imagen, y en YOLO, la red neuronal se aplica a toda la imagen de una vez. La red divide la imagen en una especie de cuadrícula y predice cuadros delimitadores (paralelepípedos, objetos encontrados delimitadores) y la probabilidad de que existan estos objetos deseados para cada área.



Las ventajas de este enfoque son que al ver la imagen completa, YOLO tiene en cuenta el contexto de la imagen al detectar y reconocer un objeto. Además, YOLO tiene claras ventajas en rendimiento: es mil veces más rápido que R-CNN y varios cientos de veces más rápido que Fast R-CNN.







Un ejemplo de operación YOLO se muestra en la Figura 3. El análisis de la imagen se realiza cuadro por cuadro, todos los semáforos rojos encontrados son detectados correctamente por la red neuronal.



Entrenar dos redes neuronales completas requiere una computadora suficientemente potente, especialmente en términos de una tarjeta de video, ya que Se utilizan cálculos de GPU. Utilizamos un procesador Core i7 de octava generación, una tarjeta gráfica nvidia gtx1080 y 32 GB de RAM. Tales características del sistema fueron suficientes para la implementación del proyecto.



Según los resultados del uso de modelos para detectar infracciones de tráfico, podemos decir que fue un proyecto exitoso. La entrada al script fue un video de la grabadora automática durante un mes con una duración total de 7 horas y 11 minutos, el tiempo de inferencia del modelo (procesamiento de videos entrantes) fue de 25 minutos. Al final del procesamiento de todos los archivos de video, se cortaron 112 fragmentos de 8 segundos (15 minutos en total), de los cuales se guardaron casi 7 horas, las violaciones se identificaron fácilmente.

Puede enviar sus preguntas a la dirección de correo electrónico .



All Articles