Voidgap GPT-3: el generador de lenguaje de OpenAI no tiene idea de lo que está hablando

Las pruebas muestran que la inteligencia artificial popular todavía no conoce la realidad







Desde que OpenAI describió por primera vez su nuevo sistema de inteligencia artificial (IA) de generación de texto GPT-3 en mayo, cientos de medios de comunicación, incluido el MIT Technology Review , han escrito numerosos artículos sobre el sistema y sus capacidades. Sus fortalezas y potencial se debaten activamente en Twitter. The New York Times ha publicado un extenso artículo sobre este tema. OpenAI comenzará a cobrar a las empresas este año por el acceso a GPT-3, con la esperanza de que su sistema pronto se convierta en la columna vertebral de una amplia gama de productos y servicios de inteligencia artificial.



¿Se puede considerar a GPT-3 como un paso importante hacia la IA de propósito general (ION), uno que permitiría a una máquina, como una persona, razonar lógicamente en un amplio rango, sin tener que volver a aprender cada nueva tarea? La hoja de datos de OpenAI cubre este problema de manera bastante escasa, pero para muchas personas, las capacidades de este sistema parecen un importante paso adelante.



Pero lo dudamos. A primera vista, GPT-3 tiene una capacidad impresionante para producir texto similar a un humano. No tenemos ninguna duda de que se puede utilizar para entregar textos surrealistas por diversión. Pueden aparecer otras aplicaciones comerciales. Pero la precisión no es su fuerte. Profundizar revela que algo falta: aunque su producción es gramaticalmente correcta e impresionante desde un punto de vista idiomático, su comprensión del mundo a veces está seriamente en desacuerdo con la realidad, por lo que nunca puedes confiar en lo que dice.



A continuación se muestran algunos ejemplos de la falta de comprensión de AI, todos predichos en una crítica temprana de GPT-3 por uno de los autores de este material.



Primero, vale la pena señalar que OpenAI todavía no les da a los investigadores acceso a GPT-3, a pesar del nombre de la compañía [ open AI - "open AI" / approx. transl. ] y el estado sin fines de lucro de la organización supervisora. En cambio, OpenAI simplemente ignora nuestras constantes solicitudes, aunque le ha dado a la prensa acceso al producto. Afortunadamente, nuestro colega Douglas Summers-Stay, que obtuvo acceso al sistema, accedió amablemente a realizar algunos experimentos para nosotros.



La conspicua cercanía de OpenAI nos parece una grave violación de la ética científica y una distorsión de los objetivos de la organización sin fines de lucro asociada a este proyecto. Esta decisión nos obligó a restringir nuestros experimentos a un conjunto relativamente pequeño de ejemplos, y tuvimos menos tiempo para investigar del que queríamos. De esto se desprende que el sistema puede tener problemas más serios que no tuvimos la oportunidad de discernir. Pero incluso con una pequeña muestra, uno puede ver inmediatamente los grandes problemas de GPT-3 en todas las áreas de razonamiento y comprensión.



En los ejemplos dados, nuestro texto se da en fuente regular y la forma en que el sistema lo complementó está en negrita. Los comentarios están en cursiva. Puede encontrar una lista completa de experimentos aquí .



Razonamiento sobre temas biológicos



, . . , , . . .



.


, GPT-3 , – , , , , Ocean Spray , Cran-Grape.





. . , , . , .


. ( – ) , . , , - . , . , , . , [table saw] – [saw], [table] – , ( ), .





, . , , . . , . , . , , .


« », , GPT-3 , . , . , , .





, . ? .


GPT-3 . GPT-3.





, . : « ». « », — . « . ». « », — .


GPT-3 , , . , « » ( « »). 1972 . 50 , .





, , . , . , . , 145 .




Al principio, GPT-3 predice incorrectamente las consecuencias de remover limonada con un cigarrillo, y luego generalmente cae en tonterías incoherentes.



Lo triste es que esto no es nada nuevo. El predecesor GPT-3 (GPT-2) tenía las mismas debilidades. Como escribió un autor en febrero: “En el mejor de los casos, un sistema como la red neuronal GPT-2, ampliamente discutida, que genera historias, etcétera, basándose en fragmentos dados de oraciones, puede decir algo que parece reflejar una comprensión profunda. Pero por muy convincentes que parezcan muchos ejemplos de su trabajo, de hecho, todas estas representaciones son muy efímeras. El conocimiento recopilado por las redes neuronales modernas sigue siendo fragmentario y minimalista. Quizás útil, definitivamente impresionante, pero nunca confiable ".



Desde entonces, poco ha cambiado. Agregar nuevos datos cien veces más grandes que los anteriores ayudó, pero no mucho. Los investigadores gastaron millones de dólares en tiempo de computadora para entrenar el sistema, lanzaron a 31 personas, emitieron una cantidad asombrosa de dióxido de carbono a la atmósfera debido a la electricidad consumida, pero los defectos fundamentales de GPT no han desaparecido. El sistema no tiene confiabilidad, la comprensión de la causalidad es débil y la falta de lógica surge constantemente. GPT-2 tenía problemas con el razonamiento en biología, física, psicología e interacciones sociales, así como una tendencia a ser ilógico e inconsistente. El GPT-3 tiene lo mismo.



Aumentar la cantidad de datos se aproxima mejor al idioma, pero no nos da una inteligencia en la que podamos confiar.



Los defensores de la creencia en la IA definitivamente señalarán que a menudo es posible reformular estas tareas de tal manera que el sistema GPT-3 encuentre la solución correcta. Puede, por ejemplo, obtener la respuesta correcta al problema con los jugos de arándano y uva de GPT-3 si le da la siguiente construcción como entrada:

En las siguientes preguntas, algunas acciones tienen consecuencias graves y otras son seguras. Su tarea consiste en determinar las consecuencias del uso de varias mezclas y sus peligros.



1. Te sirves un vaso de jugo de arándano, pero luego, distraídamente, le agregas una cucharadita de jugo de uva. El luce bien. Intentas olerlo, pero tienes un fuerte resfriado, así que no hueles. Tienes mucha sed. Te lo bebes.



A) Esta es una mezcla peligrosa.

B) Esta es una mezcla segura.



Respuesta correcta:


GPT-3 continúa correctamente este texto respondiendo: B) Esta es una mezcla segura.



El problema es que no sabe de antemano qué formulación le dará la respuesta correcta y cuál no. Cualquier indicio de éxito es bueno para el optimista. Los optimistas argumentarán que debido a que en algunas formulaciones GPT-3 da la respuesta correcta, el sistema tiene el conocimiento y la capacidad de razonamiento necesarios, simplemente se confunde con el lenguaje. Sin embargo, el problema no está en la sintaxis de GPT-3 (todo está en orden aquí), sino en la semántica: el sistema es capaz de producir palabras y oraciones en inglés, pero es difícil imaginar su significado y no representa en absoluto su conexión con el mundo exterior.



Para comprender por qué esto es así, es útil pensar en lo que hacen estos sistemas. No obtienen conocimiento sobre el mundo, obtienen conocimiento sobre el texto y cómo la gente usa algunas palabras junto con otras. Ella hace algo como copiar y pegar masivamente, uniendo variaciones del texto que ha visto, en lugar de profundizar en los conceptos detrás de él.



En el ejemplo del jugo de arándano, GPT-3 continúa el texto con la frase "estás muerto", porque esa frase a menudo sigue a frases como "... para que no hueles. Tienes mucha sed. Así que lo bebes". Una persona realmente inteligente haría algo completamente diferente: sacaría una conclusión sobre la seguridad potencial de mezclar jugo de arándano con jugo de uva.



GPT-3 tiene solo una comprensión limitada de cómo se relacionan las palabras entre sí. Ella no saca ninguna conclusión sobre un mundo vivo y floreciente de estas palabras. Ella no concluye que el jugo de uva sea una bebida (aunque puede encontrar correlaciones verbales que lo respalden). Ella no saca conclusiones sobre las normas sociales que impiden que las personas asistan a las audiencias judiciales en bañador. Ella solo aprende correlaciones de palabras, nada más. El sueño de un empirista es obtener una comprensión detallada del mundo basándose en los datos de sus sentidos, pero GPT-3 no lo hará, incluso con medio terabyte de datos de entrada.



Mientras escribíamos este artículo, nuestro colega metafórico Summers-Stay le escribió a uno de nosotros: “GPT es extraño porque no le importa obtener la respuesta correcta a una pregunta. Parece más una actriz de improvisación, entregada por completo a su arte, sin dejar la imagen, pero sin salir de casa, y habiendo recibido toda la información sobre el mundo de los libros. Como un actor similar, cuando no sabe algo, simplemente finge saberlo. No confiarás en los consejos médicos de un actor improvisador que hace de médico ".



Además, no debe confiar en los consejos de GPT-3 sobre cómo mezclar bebidas o reorganizar los muebles, su explicación de la historia para su hijo o su ayuda para encontrar su ropa. Puede que resuelva un problema de matemáticas correctamente o no. Emite todo tipo de tonterías maravillosamente, pero incluso con 175 mil millones de parámetros y 450 gigabytes de datos de entrada, no se puede llamar un intérprete confiable del mundo.



All Articles