Sobre la comprensión en inteligencia artificial

La inteligencia artificial ahora está representada por varios sistemas, pero la comprensión solo se puede hablar en los sistemas de diálogo de la Inteligencia Artificial (IA). Y el tema mismo de la comprensión en la IA se reduce a varios aspectos de la interacción de diálogo de un agente artificial con una persona:



  1. Los textos generados por el sistema de diálogo corresponden al “sentido común”.
  2. Las respuestas del sistema coinciden con el contexto del diálogo y las expectativas de la persona.
  3. Comprender los objetivos e intenciones de las declaraciones de una persona en el diálogo.


La comprensión del significado no se puede atribuir completamente al tema de la comprensión del contexto del diálogo, ya que el significado de la declaración del interlocutor se puede interpretar de diferentes maneras, y no está claro a qué interpretación debe corresponder el estado de comprensión. ¿Pueden los “errores” en opinión del interlocutor (persona) ser interpretados como una comprensión diferente del significado de la expresión por parte del sistema? En mayor medida, comprender el significado se refiere a comprender las intenciones y los objetivos de la declaración, y este es un tema aparte en la teoría de la mente. El “sentido común” como criterio de comprensión se puede interpretar con mayor precisión. En un sentido general, esta es la correspondencia de la respuesta a la imagen del mundo, que es verificable. Y hoy este es el mejor criterio para entender el contexto del diálogo por parte de agentes artificiales como los bots de diálogo. Pero hasta ahora, los bots no han tenido éxito en esto.



Análisis de enfoques



La respuesta relevante es el criterio más simple para que el bot comprenda al interlocutor (persona). Pero este criterio es fácil de "falsificar", como han demostrado más de una vez los participantes del Premio Loebner. Se logra colocando una gran cantidad de plantillas de respuesta variable en los "intentos" reconocidos por la red neuronal. Es difícil llamar a este entendimiento. Pero el éxito de estos bots también es modesto: reconocen muy mal las intenciones mixtas. Una pregunta fuera de las plantillas y el sistema falla. Es fácil verificar esto en bots como Alice de Yandex y Siri de Apple. Podemos decir que el conocimiento del mundo para tales sistemas es fragmentario.



Otra forma es la construcción de ontologías que abarquen todo el conocimiento sobre el mundo para poder tener respuestas a preguntas. Esto se logra mediante la capacidad de identificar una pregunta en la rama de la ontología y construir la respuesta correcta basada en el conocimiento incorporado en ella. Las ontologías pretenden cubrir la imagen completa del mundo con ontología. Este enfoque ha sido utilizado por proyectos como CYC y ABBYY Compreno. Ahora podemos afirmar que este método de resolver el problema del "entendimiento" ha fallado. Décadas de construcción manual de tales ontologías por parte de ingenieros de desarrollo no les permitió construir ni siquiera una que no fallara ni siquiera en las simples preguntas de los niños. Los problemas de las ontologías están asociados principalmente con la naturaleza metafórica del lenguaje y la homonimia, que no pueden establecerse consistentemente en una estructura de ontologías "lógica" en forma de árbol. Los mismos intentos incluyen los proyectos FrameNet (Fillmore),consistente en la construcción de escenarios basados ​​en un marco semántico para reflejar los hechos del mundo. Pero por las mismas razones, el proyecto no se pudo desarrollar.Podemos decir que tales sistemas no son capaces de darse cuenta de la parsimonia del lenguaje como la capacidad de describir una gran cantidad de conceptos mediante el mecanismo de la metáfora con un vocabulario limitado.



Desde 2010, se ha puesto más énfasis en las redes neuronales, pero están limitadas porque solo pueden hacer suposiciones dentro del marco de la imagen del mundo que estaba presente en el conjunto de entrenamiento. Redes como GPT-3 (febrero de 2019) en el proyecto OpenAI, construida sobre la arquitectura Transformer (una red generativa entrenada en miles de millones de palabras en términos de texto), generan textos “humanos” gramaticalmente correctos que no tienen ningún significado, lo que indica un completo malentendido por parte de ellos " sentido común ”como en el ejemplo siguiente.



Ejemplo:



Tú: ¿Cuántos ojos tiene un lobo?

GPT-3: Un lobo tiene cuatro ojos.

Tu: ¿Por qué cuatro?

GPT-3: Dos son para ver en la oscuridad.

Tu: ¿Por qué dos?

GPT-3: El lobo necesita ver si su comida está lista.

Tu: ¿Y cuantos ojos tiene un humano?

GPT-3: un humano tiene dos ojos y dos oídos para oír.

Tu: ¿Y cuantos ojos tiene una brizna de hierba?

GPT-3: Una brizna de hierba tiene un ojo y un oído para ver y oír.

Tu: ¿Por qué uno?

GPT-3: Para asegurarse de que no se pise.



Podemos decir que tales sistemas pueden generar un enunciado sobre cualquier cuestión, incluso que no se encuentre en los textos educativos, pero no se puede garantizar que construyan hechos de “sentido común” correspondientes a la imagen del mundo.



Hay enfoques combinados como COMET, fundado por Yejin Choi (1), en el que se utilizó una base de conocimientos "manuscrita" de los hechos del mundo atómico para volver a entrenar el modelo de lenguaje pre-entrenado GPT-2. Como resultado, la red comenzó a generar hechos significativamente más plausibles que están ausentes tanto en el conjunto de entrenamiento Atómico como en el GPT. Pero el éxito de un proyecto de este tipo también es modesto hasta ahora, ya que no hay una respuesta garantizada.



De interés son los sistemas DeepMind, que, además de una red neuronal, cuentan con una memoria externa de hechos (o experiencia), lo que les permite aprender las "reglas del juego" sin un maestro, simplemente por estar activo en el entorno y registrando su resultado. Y de esta manera aprender, incluso jugando entre ellos, lo que hizo posible vencer a jugadores humanos incluso en juegos como Go. Esto ahora se considera la corriente principal en la construcción de agentes que "entienden el mundo" del juego. Pero la arquitectura de tal sistema de autoaprendizaje no permite escalarlo a una realidad más compleja que un juego de guijarros en blanco y negro o un primitivo juego de computadora Atari. La forma de enseñar tiene claramente un límite tecnológico de complejidad.Podemos decir que tales sistemas crean una "imagen del mundo" no utilizando el conocimiento para construir nuevos conocimientos con el fin de ahorrar recursos del sistema. Por lo tanto, necesitan demasiados recursos para aprender incluso en entornos pobres.



Resumen



Entonces, ¿qué se puede llamar "comprensión" de los sistemas artificiales desde un punto de vista pragmático? La respuesta común es que el agente debe tener conocimientos. Al mismo tiempo, como muestra la experiencia, es imposible construir un conocimiento integral. Otra respuesta puede ser la coherencia en las respuestas del sistema. Pero, como podemos ver, los sistemas entrenados en textos enormes no difieren en la lógica de las declaraciones que generan.



La comprensión mediante un sistema de IA significa su capacidad para DESARROLLAR hipótesis plausibles sobre la imagen del mundo a partir del conocimiento fragmentario de los hechos de este mundo. Y para ahorrar dinero, el sistema debe poder usar un lenguaje limitado para describir un número infinito de hechos, lo que se logra mediante mecanismos como la metáfora. Sin embargo, por el momento, este mecanismo no se conoce lo suficiente como para incorporarlo en el código del programa. Los conceptos disponibles de metáfora no son algorítmicamente específicos, como metáfora conceptual o mezclas. Las matemáticas aún no les son aplicables, pero el trabajo del autor se lleva a cabo en esta dirección.



Según el autor, tal finalización es el criterio principal para la capacidad de comprensión de un sistema artificial. Cuando la "imagen del mundo" es limitada, por ejemplo, en el ajedrez, podemos establecer explícitamente algoritmos para la producción de conocimiento, es decir, posibles movimientos, de modo que el ajedrez pueda orientarse en cualquier disposición de piezas que ni siquiera se haya encontrado antes. Pero cómo hacer esto en el mundo real, donde hay muchos órdenes de magnitud más reglas, aún no se sabe cuál constituye la dirección principal de la investigación del autor.



Bibliografía



1. El sentido común se acerca a las computadoras, Quantamagazin, 30 de abril de 2020



All Articles