Reformer - Transformador eficaz



Comprender los datos organizados secuencialmente, ya sea el idioma, la música o el video, es difícil, especialmente cuando depende en gran medida del contexto que los rodea. Por ejemplo, si una persona o cualquier objeto desaparece del campo de visión del video y reaparece después de un período de tiempo significativo, muchos modelos olvidarán cómo se veía. En el ámbito del procesamiento del lenguaje, las redes neuronales de memoria a corto plazo (LSTM ) proporcionan suficiente contexto para traducir con éxito oración por oración . En este caso, la ventana de contexto (es decir, la cobertura de datos que el modelo tiene en cuenta al traducir) puede contener de diez a cien palabras. Modelo de transformador más nuevono solo ha mejorado la calidad de la traducción consecutiva, sino que se puede utilizar para generar artículos completos de Wikipedia resumiendo varios documentos. Esto es posible debido al hecho de que Transformer amplió la ventana de contexto a mil palabras. Además, un contexto tan amplio permite utilizar el Transformer para procesar no solo texto, sino también píxeles o notas musicales, a partir de las cuales se pueden generar imágenes o música .



. , . , 100 , 100 100 , 10 , . . , , ( – ). , , , .



Reformer – , 1 16 . Reformer , : (locality-sensitive-hashing, LSH), , (reversible residual layers) .





, – ? LSH : , , -, . , , ( ), . , . , , , , – (chunks), . ( ) , .



imagen3



: Reformer , ( , ), . LSH , . .





LSH , . GPU, , , . , . , .



, Reformer', : , , . , , . , . , , . , , ; . , , , .



imagen4



: (a) . (b) , . () , .



Reformer'



Reformer' , 1 16 . , Reformer , . , Reformer' .



, – . Colab- Reformer' . , , Reformer (. ).



imagen5



: , Reformer'. : «» . Imagenet64.



Reformer' , . Reformer . , Colab- « ». , , , Reformer, .





, Reformer , . , , Reformer', . , . , Reformer'. Colab– , .





  • — Nikita Kitaev, Łukasz Kaiser



All Articles