Un nuevo enfoque para el uso de tecnologías fotónicas en el aprendizaje automático

En su artículo "Los procesadores fotónicos permiten un mayor rendimiento del aprendizaje automático" en Applied Physics Review, los autores Mario Miskullo y Volker Sorger del Departamento de Ingeniería Eléctrica e Informática de la Universidad George Washington, EE. UU., Describen un nuevo enfoque para realizar cálculos de redes neuronales para aprendizaje automático utilizando núcleos de tensores fotónicos en lugar de unidades de procesamiento de gráficos (GPU).



Miscuglio


Mario Miskullo es profesor asistente en el Departamento de Ingeniería Eléctrica e Informática de la Universidad George Washington. Mario es un líder de subgrupo del equipo de computación neuromórfica de OPEN Lab dirigido por el Prof. Dr. Volcker J. Sorger. Mario obtuvo su maestría en Ingeniería Eléctrica e Informática en el Politécnico de Turín mientras trabajaba como investigador en Harvard / MIT. Defendió su tesis doctoral en optoelectrónica en la Universidad de Génova en el Instituto Italiano de Tecnología, mientras trabajaba como asistente de investigación en la Fundición Molecular del Laboratorio Nacional. Lawrence en Berkeley. Sus intereses se extienden a la ciencia y la ingeniería, incluida la nanoóptica y las interacciones luz-materia, metasuperficies, óptica de Fourier y computación neuromórfica fotónica.



Los autores sugieren que, como resultado de este enfoque, el rendimiento de procesamiento de los flujos de datos ópticos puede ser 2-3 órdenes de magnitud más alto que el de una GPU. Los autores también creen que los procesadores fotónicos pueden funcionar excepcionalmente bien en periféricos en redes 5G.



investigación-destacado-volker-sorger-007-2


— , (OPEN) . , .



, , - . — , , PMAC/s . , (PECASE), AFOSR , . - , OSA , OSA , SPIE . - IEEE, OSA SPIE.




En el enfoque en estudio, el núcleo del tensor de fotones realiza multiplicaciones de matrices en paralelo, lo que mejora la velocidad y la eficiencia del aprendizaje profundo. Las redes neuronales aprenden a aprender a ejecutar decisiones incontroladas y a crear una clasificación de datos invisibles. Una vez que una red neuronal está entrenada para trabajar con datos, puede inferir para reconocer y clasificar objetos, patrones y encontrar una firma en los datos.



El procesador fotónico de TPU almacena y procesa datos en paralelo utilizando una conexión electroóptica que puede leer y escribir memoria óptica de manera eficiente, mientras que el TPU fotónico interactúa con otras arquitecturas.



“Descubrimos que las plataformas fotónicas con memoria óptica incorporada pueden realizar las mismas operaciones que los procesadores tensoriales. Al mismo tiempo, consumen menos energía y son mucho más productivos. Se pueden utilizar para realizar cálculos a la velocidad de la luz ”, dijo Mario Miskullo, uno de los desarrolladores.



La mayoría de las redes neuronales desentrañan múltiples capas de neuronas interconectadas para imitar cómo funciona el cerebro humano. Una forma eficiente de representar estas redes es una función compuesta que multiplica matrices y vectores juntos. Esta vista permite realizar operaciones paralelas a través de arquitecturas especializadas en operaciones vectorizadas como la multiplicación de matrices.



Motor de producto punto y núcleo de tensor fotónico


Fuente: Artículo de Mario Miskullo y Volker Sorger.



(a) El núcleo del tensor fotónico (PTC) consta de 16 fibras que, por su naturaleza, realizan de forma independiente la multiplicación línea por línea y la acumulación punto por punto.



(segundo) . WDM, (, -) . J- . , , (MRR), ( ), , , MAC.



Cuanto más difícil sea la tarea y mayores sean los requisitos de precisión del pronóstico, más compleja se vuelve la red. Tales redes requieren grandes cantidades de datos para computar y más poder para procesar esos datos. Los procesadores digitales modernos adecuados para el aprendizaje profundo, como las unidades de procesamiento de gráficos (GPU) o las unidades de procesamiento de tensores (TPU), tienen limitaciones para realizar operaciones complejas y de alta precisión debido a la potencia requerida para hacerlo. Y también por la lenta transferencia de datos electrónicos entre el procesador y la memoria.



Los desarrolladores y autores del artículo han demostrado que el rendimiento de una TPU puede ser 2-3 órdenes de magnitud mayor que el de una TPU eléctrica. Los fotones son ideales para redes informáticas y operaciones de nodo a nodo que realizan tareas inteligentes de alta capacidad en el borde de redes como 5G. Las señales de datos de cámaras de vigilancia, sensores ópticos y otras fuentes pueden estar ya en forma de fotones.



“Los procesadores dedicados fotónicos pueden ahorrar enormes cantidades de energía al reducir los tiempos de respuesta y procesamiento”, agregó Miskullo. Para el usuario final, esto significa que los datos se procesan mucho más rápido en este caso, porque la mayoría está preprocesada, lo que significa que solo algunos de los datos pueden enviarse a la nube o al centro de datos.



Un nuevo enfoque para la transmisión de datos óptica y eléctrica



Este artículo presenta un ejemplo de cómo elegir una ruta óptica para realizar tareas de aprendizaje automático. En la mayoría de las redes neuronales (NN), que exponen múltiples capas de neuronas / nodos interconectados, cada neurona y capa, así como las conexiones de la red en sí, son importantes para la tarea en la que se entrenó la red. En la capa conectada en consideración, las redes neuronales dependen en gran medida de las operaciones matemáticas de una matriz vectorial, en la que se multiplican grandes matrices de datos de entrada y pesos de acuerdo con el proceso de aprendizaje. Las redes neuronales profundas de múltiples capas complejas requieren un ancho de banda significativo y baja latencia para satisfacer las operaciones requeridas para realizar una gran multiplicación de matrices sin sacrificar la eficiencia y la velocidad.



¿Cómo multiplica eficazmente estas matrices? En los procesadores de propósito general, las operaciones matriciales se realizan de forma secuencial, lo que requiere un acceso constante a la memoria caché, lo que crea un cuello de botella en la arquitectura de von Neumann. Las arquitecturas especializadas, como las GPU y las TPU, ayudan a mitigar estos cuellos de botella al habilitar algunos modelos potentes de aprendizaje automático.



Las GPU y TPU son especialmente útiles sobre las CPU. Pero cuando se utilizan para entrenar redes neuronales profundas, realizando inferencias para grandes conjuntos de datos bidimensionales, como imágenes, pueden consumir mucha energía y requerir un tiempo de cálculo más largo (más de decenas de milisegundos). La multiplicación de matrices para tareas de inferencia menos complejas todavía adolece de problemas de latencia, principalmente debido a restricciones de acceso a varias jerarquías de memoria y latencia para cada instrucción en la GPU.



Los autores del artículo sugieren que, dado este contexto, es necesario estudiar y reinventar los paradigmas operativos de las plataformas informáticas lógicas modernas en las que el álgebra matricial se basa en el acceso a la memoria persistente. En este sentido, la naturaleza ondulatoria de la luz y las operaciones inherentes asociadas, como la interferencia y la difracción, pueden desempeñar un papel importante en el aumento del rendimiento computacional al tiempo que se reduce el consumo de energía de las plataformas neuromórficas.



Los desarrolladores anticipan que las tecnologías futuras deben realizar tareas computacionales en el dominio de sus entradas variables en el tiempo utilizando sus propias operaciones físicas. Desde este punto de vista, los fotones son ideales para cálculos de redes distribuidas, realizando tareas inteligentes en big data en el borde de la red (por ejemplo, 5G), donde las señales de datos ya pueden existir en forma de fotones (por ejemplo, una cámara de videovigilancia, sensor óptico, etc.) .), prefiltrando y ajustando inteligentemente la cantidad de tráfico de datos que se permite dirigir hacia los centros de datos y los sistemas en la nube.



Aquí es donde desglosan un nuevo enfoque utilizando un núcleo de tensor fotónico (PTC) capaz de realizar la multiplicación y acumulación de matrices 4x4 con un núcleo entrenado en un paso (es decir, no de forma iterativa); en otras palabras, después del entrenamiento, los pesos de la red neuronal se almacenan en una memoria fotónica multinivel de 4 bits, implementada directamente en el chip, sin la necesidad de circuitos electroópticos adicionales o memoria dinámica de acceso aleatorio (DRAM). Las memorias fotónicas tienen circuitos nanofotónicos de cambio de fase de baja pérdida basados ​​en conductores G2Sb2Se5 depositados en una guía de ondas planarizada que puede actualizarse mediante conmutación electrotérmica, por lo que se puede leer de forma totalmente óptica.La conmutación electrotérmica se logra utilizando electrodos de calentamiento de tungsteno que interactúan con un sensor de memoria de cambio de fase (PCM).



Mesa. Comparación del rendimiento de núcleos tensoriales.

imagen


Fuente: Artículo de Mario Miskullo y Volker Sorger.



El Photonic Tensor Core (PTC) alimentado electrónicamente (en la columna de la izquierda) proporciona un aumento de 2-8x en el rendimiento en comparación con el T4 y A100 de Nvidia, y para datos ópticos (como una cámara), el aumento es de aproximadamente 60x (área El microcircuito está limitado a un cristal (~ 800 mm2).



Las pruebas han demostrado que el rendimiento de los chips fotónicos es dos o tres veces mayor que los del mercado actual. La velocidad de procesamiento de datos en ellos puede llegar a dos petaflops por segundo, mientras consumen alrededor de 80 vatios de energía, de los cuales el 95% se gastará en mantenimiento del chip y solo el 5% en cálculos.



Los autores del artículo enfatizan que este trabajo representa el primer acercamiento a la implementación de un procesador de tensor de fotones que almacena datos y los procesa en paralelo. Dicho procesador puede escalar el número de operaciones de acumulación múltiple (MAC) en varios órdenes de magnitud, al mismo tiempo que reduce significativamente el consumo de energía y la latencia en comparación con los aceleradores de hardware existentes, además de proporcionar análisis en tiempo real.



A diferencia de la electrónica digital, que se basa en puertas lógicas, en la fotónica integrada, la multiplicación-acumulación y muchas otras operaciones algebraicas lineales se pueden realizar de forma no iterativa, aprovechando el paralelismo inherente proporcionado por la naturaleza electromagnética de las señales de materia luminosa. En este sentido, la fotónica integrada es una plataforma ideal para mostrar operaciones complejas específicas en hardware.



All Articles