Tecnologías para probar el dictado total: ¿qué se puede mejorar?

Estoy en el jurado del World AI & Data Challenge... Esta es una competencia internacional para desarrolladores de tecnología para resolver varios problemas sociales, como combatir la pobreza, ayudar a las personas con discapacidades auditivas y visuales, mejorar la retroalimentación entre las personas y las organizaciones gubernamentales, etc. Ahora que está en marcha la segunda etapa de la competición, que durará hasta octubre. Como parte de esta etapa, seleccionamos las mejores soluciones para la posterior implementación de proyectos. Dado que en ABBYY trabajamos mucho con los textos y su significado, lo que más me interesó fue comprobar los textos en el marco del proyecto Total Dictation. Usemos este problema como ejemplo para descubrir por qué el procesamiento del lenguaje natural es una de las áreas más subestimadas del aprendizaje automático moderno y analicemos por qué, incluso cuando se trata de verificar un dictado, todo es "un poco más complicado de lo que parece". Y más interesante, por supuesto.



Entonces, la tarea: crear un algoritmo para verificar "Dictado total". Parecería, ¿qué podría ser más fácil? Hay respuestas correctas, hay textos de los participantes: tómalo y hazlo. Todo el mundo sabe comparar líneas. Y luego comienza lo interesante.



Comas tan diferentes; o punto y coma?



El lenguaje natural es algo complejo, a menudo con más de una interpretación. Incluso en una tarea como la verificación de un dictado (donde, a primera vista, existe la única solución correcta), se debe tener en cuenta desde el principio que, además de la del autor, puede haber otras opciones correctas. Además, los organizadores de la competencia incluso lo pensaron: tienen varias grafías aceptables. Al menos algunas veces. Lo importante aquí es que es poco probable que los compiladores puedan indicar todas las opciones correctas, por lo que los participantes de la competencia, quizás, deberían pensar en un modelo pre-entrenado en un gran corpus de textos que no estén directamente relacionados con el dictado. Al final, dependiendo de entender el contexto, una persona puede poner una coma o no poner un punto y coma; en algunos casos todo es posible: usar dos puntos, un guión (o incluso paréntesis).



El hecho de que sea un dictado y no un ensayo que deba evaluarse no es un error, sino una característica. Los sistemas automáticos de calificación de ensayos son muy populares en los EE. UU. 21 estados utilizan soluciones automatizadas de revisión de ensayos para el GRE. Solo recientemente se descubrió que estos sistemas otorgan altas calificaciones a los textos más largos en los que se usa un vocabulario más complejo (incluso si el texto en sí no tiene significado). ¿Como lo descubriste? Los estudiantes del MIT desarrollaron un programa especial Generador Básico Automático de Lenguaje de Ensayo BS (BABEL), que genera automáticamente cadenas de palabras complejas. Los sistemas automatizados calificaron estos "ensayos" muy bien. Es un placer probar sistemas modernos basados ​​en el aprendizaje automático. Otro ejemplo igualmente candente: el ex profesor del MIT Les Perelmanofreció el sistema e-rater de ETS, que produce y califica los exámenes GRE y TOEFL, para verificar el ensayo de 5000 palabras de Noam Chomsky. El programa encontró 62 errores gramaticales inexistentes y 9 comas faltantes. Conclusión: los algoritmos aún no funcionan bien con el significado. Porque nosotros mismos podemos definir muy mal lo que es. La creación de un algoritmo que verifique el dictado tiene sentido práctico, pero esta tarea no es tan simple como parece. Y el punto aquí no es solo la ambigüedad de la respuesta correcta, sobre lo que dije aquí, sino también que el dictado lo dicta una persona.



La personalidad del dictador



El dictado es un proceso complejo. La forma en que el “dictador” lee el texto - como llaman en broma los organizadores del dictado total a quienes ayudan a ejecutarlo - puede influir en la calidad final del trabajo. Un sistema de corrección ideal correlacionaría los resultados de los escritores con la calidad del dictado utilizando texto a voz. Además, ya se están utilizando soluciones similares en educación. Por ejemplo, Third Space LearningEs un sistema creado por científicos del University College London. El sistema utiliza el reconocimiento de voz, analiza cómo el profesor lleva a cabo la lección y, basándose en esta información, hace recomendaciones sobre cómo mejorar el proceso de aprendizaje. Por ejemplo, si un maestro habla demasiado rápido o demasiado lento, en voz baja o en voz alta, el sistema le enviará una notificación automática. Por cierto, sobre la base de la voz del alumno, el algoritmo puede determinar que está perdiendo interés y está aburrido. Diferentes dictadores pueden influir en los resultados finales del dictado para diferentes participantes. Hay una injusticia que se puede eliminar ¿con qué? ¡Correcto! ¡Dictador de Inteligencia Artificial! Arrepiéntanse, nuestros días están contados. De acuerdo, en serio, en línea puedes simplemente dar a todos la misma banda sonora o poner una evaluación de la calidad del "Dictador" en el algoritmo, sin importar cuán sedicioso suene. Aquellos,quienes fueron dictados más rápido y con menos claridad pueden contar con puntos adicionales "por nocividad". De todos modos, si tenemos voz a texto, entonces se me ocurre otra idea.



Robot y hombre: ¿quién escribirá mejor el dictado?



Si hacemos reconocimiento de sonido en la transmisión, entonces no hace falta decirlo para crear un participante virtual en el dictado. Sería genial comparar los éxitos de la IA y los humanos, especialmente porque ya se están llevando a cabo activamente en el mundo experimentos similares en diversas disciplinas educativas. Entonces, en China en 2017, AI aprobó el examen estatal "gaokao" en la ciudad de Chengdu; esto es algo así como el Examen Estatal Unificado de Rusia. Obtuvo 105 puntos de 150 posibles, es decir, aprobó las materias con un sólido "tres". Vale la pena señalar que, como en el problema del “Dictado total”, lo más difícil para el algoritmo fue comprender el idioma, en este caso, el chino. En Rusia, Sberbank llevó a cabo el año pasadoconcursos para desarrollar algoritmos para aprobar pruebas en idioma ruso. El Examen del Estado Unificado consistió en pruebas y un ensayo sobre un tema determinado. Las pruebas para robots se compilaron con un mayor nivel de complejidad y consistieron en tres etapas: completar directamente la tarea, resaltar ejemplos de acuerdo con las reglas y la redacción dadas, y también registrar correctamente la respuesta.



Regresemos de la discusión de “qué más se puede hacer”, de hecho, a la tarea de dictado.



Mapa de errores



Entre otras cosas, los organizadores del concurso piden un mapa de calor de errores. Herramientas como un mapa de calor muestran dónde y con qué frecuencia las personas cometen errores; es lógico que más a menudo cometan errores en lugares difíciles. En este sentido, además de la discrepancia con las opciones de referencia, se puede utilizar un mapa de calor en función de las discrepancias de otros usuarios. Esta validación colectiva de los resultados de los demás es fácil de implementar, pero puede mejorar significativamente la calidad de la verificación.



Ya se están recopilando estadísticas parcialmente similares "Dictado total", pero se hace manualmente con la ayuda de voluntarios. Por ejemplo, gracias a su trabajoaprendimos que la mayoría de los usuarios se equivocan con las palabras "lento", "demasiado", "planeado". Pero recopilar esos datos de manera rápida y eficiente se vuelve más difícil, cuanto más participantes en el dictado. Varias plataformas educativas ya están utilizando herramientas similares. Por ejemplo, una de las aplicaciones populares para aprender idiomas extranjeros utiliza estas tecnologías para optimizar y personalizar las lecciones. Para ello, desarrollaron un modelo cuya tarea es analizar las combinaciones de frecuencia de errores de millones de usuarios. Esto ayuda a predecir la rapidez con la que un usuario puede olvidar una palabra en particular. También se tiene en cuenta la complejidad del tema en estudio.



En general, como dice mi padre: “Todas las tareas se dividen en estupideces y sordos. Las tonterías son tareas que ya se han resuelto, o que aún no han comenzado a resolverse. Las personas sordas son tareas que estás resolviendo en este momento ". Incluso en torno al problema de la validación de texto, el aprendizaje automático le permite hacer toneladas de preguntas y crear un montón de complementos que pueden cambiar cualitativamente la experiencia del usuario final. Descubriremos qué harán los participantes del World AI & Data Challenge antes de fin de año.



All Articles