Entrenamiento previo más eficiente de modelos de PNL con ELECTRA

Los desarrollos recientes en los modelos de lenguaje de pre-aprendizaje han llevado a avances significativos en el procesamiento del lenguaje natural (NLP), generando modelos altamente eficientes como BERT , RoBERTa , XLNet , ALBERT , T5 y muchos más. Sin embargo, estos métodos, que tienen arquitecturas diferentes, están unidos por la idea de utilizar grandes cantidades de datos de texto sin etiquetar para crear un modelo general de comprensión del lenguaje natural, que luego se entrena y ajusta con precisión para resolver problemas aplicados específicos, como el análisis de sentimientos o la construcción de sistemas de preguntas y respuestas.



Los métodos de formación previa existentes se dividen principalmente en dos categorías:



  • Modelos de lenguaje (LM) como GPT , que procesan el texto en la entrada de izquierda a derecha, prediciendo la siguiente palabra en un contexto previamente definido;
  • Modelos de lenguaje enmascarado (MLM), como BERT, RoBERTa y ALBERT, que intentan predecir las palabras enmascaradas del texto fuente.


La ventaja de MLM es que funciona bidireccionalmente, es decir "Ver" el texto a ambos lados del token predicho, en contraste con los LM, que miran solo en una dirección. Sin embargo, MLM (y modelos como XLNet) también tienen desventajas derivadas de su tarea previa al entrenamiento: en lugar de predecir cada palabra de la secuencia de entrada, predicen solo una pequeña parte enmascarada, solo alrededor del 15%, lo que reduce la cantidad de información recibida de una oración.



imagen3



. () . : (, GPT), . : (, BERT), , .



«ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators» , BERT’, . ELECTRA – , (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) — , , . , ELECTRA , RoBERTa XLNet GLUE, , , ¼ , - SQuAD. ELECTRA , : 1 GPU , (accuracy), GPT, 30 . ELECTRA TensorFlow .





ELECTRA – (replaced token detection, RTD), ( MLM) ( LM). - (generative adversarial network, GAN), ELECTRA «» «» . , , «[MASK]» ( BERT’), RTD , . , , «cooked» «ate». , , . (.. ) , , . , , (15% BERT). RTD , MLM – ELECTRA «» , , .. . , RTD , .. , .



imagen4



.



, . , , ELECTRA ( BERT- ), . , , , GAN, , , - GAN . . , ( ELECTRA) NLP . .



imagen1



. MLM , ELECTRA.





ELECTRA c NLP , , , RoBERTa XLNet 25% , .



imagen2



x , ( FLOPs), y – GLUE. ELECTRA , NLP . , GLUE, T5, , .. ( 10 , RoBERTa).



, ELECTRA-Small, , GPU 4 . , , TPU , ELECTRA-Small GPT, 1/30 .



, , ELECTRA , ELECTRA-Large ( RoBERTa 10% T5). - SQuAD 2.0 (. ) RoBERTa, XLNet ALBERT GLUE. T5-11b GLUE, ELECTRA 30 10% , T5.



imagen5



ELECTRA-Large SQuAD 2.0 ( ).



ELECTRA



El código de la formación previa y el ajuste fino de ELECTRA en las tareas de PNL aplicadas, como la clasificación de texto, los problemas de preguntas y respuestas y el marcado de secuencias, se ha publicado en acceso abierto . El código admite el entrenamiento rápido de un modelo ELECTRA pequeño en una sola GPU. También se publican los pesos de modelos previamente entrenados como ELECTRA-Large, ELECTRA-Base y ELECTRA-Small. Si bien ELECTRA solo está disponible para inglés, en el futuro, los desarrolladores planean entrenar previamente el modelo en otros idiomas.



Autores






All Articles