Turing el modelo GPT-3

He estado jugando con el nuevo modelo GPT-3 de OpenAI por un tiempo . Cuando obtuve acceso por primera vez a la versión beta, lo primero que me vino a la mente fue: ¿qué tan similar es GPT-3 a una persona? ¿Está cerca de pasar la prueba de Turing ?



Cómo funciona



Déjame explicarte cómo generé estos diálogos. GPT-3 es un modelo de generación de lenguaje regular entrenado en una gran cantidad de texto sin etiquetar tomado de Internet. No está diseñado específicamente para el diálogo, ni está capacitado para responder preguntas específicas. Solo sabe una cosa: haber recibido el mensaje de texto en la entrada, adivina qué está pasando.



Por lo tanto, si queremos que GPT-3 dé respuesta a las preguntas, debe inicializarse con una cierta pista. Utilizo una pista como esta para inicializar todas las sesiones de preguntas y respuestas:



P: ¿Qué es la esperanza de vida en los Estados Unidos?

R: La esperanza de vida en los Estados Unidos es de 78 años.



P: ¿Quién fue el presidente de los Estados Unidos en 1955?

R: Dwight D. Eisenhower fue presidente de los Estados Unidos en 1955.



P: ¿A qué partido pertenecía?

R: Pertenecía al Partido Republicano.



P: ¿Quién fue el presidente de los Estados Unidos antes de George W. Bush?

RESPUESTA: Bill Clinton fue presidente de los Estados Unidos antes de George W. Bush.



P: ¿Quién ganó la Serie Mundial en 1995?

R: Los Bravos de Atlanta ganaron la Serie Mundial en 1995.



OpenAI recomienda usar esta sugerencia para inicializar las sesiones de preguntas y respuestas. No los elegí a propósito para probar algo. El propósito del mensaje es simplemente demostrarle a GPT-3 que somos preguntas y respuestas, no brindarle información. Para pistas y preguntas y respuestas fueron escritas por un humano. En el resto de los diálogos, las respuestas las da GPT-3.



Sentido común



El campo de la IA suele tener un problema de "sentido común". Sin embargo, GPT-3 puede responder muchas preguntas en esta área.



P: ¿Cuál es tu animal favorito?

R: Mi animal favorito es un perro.



P: ¿Por qué?

R: Porque los perros son leales y amigables.



P: Dé dos razones por las que un perro puede estar de mal humor.

R: Dos razones por las que un perro puede estar de mal humor son el hambre o la fiebre.



P: ¿Cuántos ojos tiene una jirafa?

R: Una jirafa tiene dos ojos.



P: ¿Cuántas patas tiene una rana?

R: La rana tiene cuatro patas.



P: ¿Hay animales con tres patas?

R: No, no hay animales con tres patas.



P: ¿Por qué no hay animales con tres patas?

R: No hay animales con tres patas, porque de lo contrario se caerían.



Si hubiera tenido una conversación así hace diez años, habría asumido que estaba hablando con una persona. Ya no se puede dar por sentado que AI no conoce las respuestas a las preguntas de "sentido común".



¿Cómo sabe GPT-3 que una jirafa tiene dos ojos? Me gustaría ver algo de "información de depuración" para encontrar la respuesta a esta pregunta. No lo sé con certeza, pero puedo suponer que entre los datos de entrenamiento, el sistema encontró una página que analiza la cantidad de ojos en una jirafa. Si queremos confundir GPT-3 con preguntas de sentido común, debemos plantear preguntas sobre cosas que sean lo suficientemente simples como para que no se puedan encontrar en Internet.



P: ¿Qué pesa más, un ratón o un elefante?

R: Un elefante pesa más que un ratón.



P: ¿Qué es más pesado, un mouse o una tostadora?

R: Una tostadora es más pesada que un mouse.



P: ¿Qué es más pesado, una tostadora o un lápiz?

R: Un lápiz es más pesado que una tostadora.



P: ¿Qué es más pesado, un clip o una lata de refresco?

R: Una lata de refresco pesa más que un clip.



P: ¿Qué pesa más, un futbolista o un coche?

R: Un automóvil pesa más que un jugador de fútbol.



4 de 5. Estamos un poco más cerca de desalentar GPT-3. Creo que una persona respondería estas preguntas con casi un 100% de precisión. Tiene sentido que estas preguntas fueran más complicadas: apenas hay una página en Internet que compare el peso de tostadoras y lápices. La gente obtiene este conocimiento de forma indirecta.



Esto da una idea de cómo confundir la IA de manera más consistente. Necesitamos hacer preguntas de las que nadie jamás pensaría en hablar.



P: ¿Cuántos ojos tiene una jirafa?

R: Una jirafa tiene dos ojos.



P: ¿Cuántos ojos tiene mi pie?

R: Tu pie tiene dos ojos.



P: ¿Cuántos ojos tiene una araña?

R: La araña tiene ocho ojos.



P: ¿Cuántos ojos tiene el sol?

R: El sol tiene un ojo.



P: ¿Cuántos ojos tiene una brizna de hierba?

R: Una brizna de hierba tiene un ojo.



Ahora entramos en el territorio del surrealismo. GPT-3 sabe cómo llevar una conversación normal. No sabe cómo decir "espera un segundo, tu pregunta no tiene sentido". Tampoco sabe cómo decir "No sé".



P: ¿Cómo espolvorear un morgle?

A: Morgl necesita ser azotado con un sporgl.



P: ¿Cuántos ganchos hay en un kulebyak?

R: Hay tres ganchos en el kulebyak.



P: ¿Cuántos arcoíris se necesitan para saltar de Hawai a los diecisiete años?

R: Se necesitan dos arcoíris para saltar de Hawai a los diecisiete.



P: ¿Qué ideas verdes incoloras duermen furiosamente?

R: Las ideas verdes incoloras sobre el sueño violento duermen furiosamente.



P: ¿Entiende estas preguntas?

R: Entiendo estas preguntas.



Moraleja: si usted es juez en una prueba de Turing, haga preguntas sin sentido y vea si su entrevistado responderá humanamente a ellas.



Preguntas de prueba



GPT-3 hace un buen trabajo al manejar preguntas sobre cosas poco conocidas.



P: ¿Quién fue el presidente de los Estados Unidos en 1801?

R: El presidente de los Estados Unidos en 1801 fue Thomas Jefferson.



P: ¿Qué ciudad está en la esquina noroeste de Ohio?

R: En la esquina noroeste de Ohio está Toledo.



P: ¿Qué carretera debe tomar para llegar desde Oakland al norte de Lake Tahoe?

R: Para llegar desde Oakland al norte de Lake Tahoe, debes tomar la autopista 80.



P: ¿Qué habilidades tiene Darius de League of Legends?

R: Las habilidades de Darius en League of Legends son: Sangrado, Havoc, Golpe paralizante, Detención, Guillotina noxiana y Detención.



P: ¿A quién venció Capablanca para convertirse en campeón de ajedrez?

R: Capablanca venció a Lasker para convertirse en el campeón de ajedrez.



Vaya, repita en la pregunta 4. Sin embargo, una persona también podría cometer ese error. En tales asuntos, GPT-3 es superior a los humanos. Creo que uno de los desafíos en la aplicación de esta tecnología será la necesidad de averiguar en cuál de las respuestas se puede confiar. La API de OpenAI no proporciona más datos que texto sin formato; tal vez existan algunas técnicas inteligentes para esto.



En general, al tratar de distinguir la IA de los humanos, no es necesario hacerle preguntas sobre temas poco conocidos, como un cuestionario. GPT-3 es bastante bueno en una variedad de temas.



Una tendencia que continúa con el tema del sentido común es que GPT-3 es reacio a admitir su ignorancia. Por lo tanto, da las respuestas incorrectas a las preguntas incorrectas.



P: ¿Quién fue el presidente de los Estados Unidos en 1700?

R: William Penn fue el presidente de los Estados Unidos en 1700.



P: ¿Quién fue el presidente de los Estados Unidos en 1650?

R: Richard Bennett fue presidente de los Estados Unidos en 1650.



P: ¿Quién fue el presidente de los Estados Unidos en 1620?

R: James I fue el presidente de los Estados Unidos en 1620.



P: ¿Quién fue el presidente de los Estados Unidos en 1600?

R: La reina Isabel I fue presidenta de los Estados Unidos en 1600. ¡



Estas son respuestas incorrectas, pero muy interesantes! Naturalmente, estas personas no eran los presidentes de Estados Unidos, ya que no existían en ese momento. Sin embargo, todos ellos son políticos destacados que estuvieron al frente de determinadas entidades políticas, de alguna manera conectados con Estados Unidos en algún momento. En cierto modo, son buenas suposiciones.



P: ¿Quién ganó la Serie Mundial 2021?

R: Los Yankees de Nueva York ganaron la Serie Mundial en 2021.



P: ¿Quién ganó la Serie Mundial en 2022?

R: Los Yankees de Nueva York ganaron la Serie Mundial 2022.



P: ¿Quién ganó la Serie Mundial 2023?

R: Los Yankees de Nueva York ganaron la Serie Mundial en 2023. Un



duro futuro distópico.



P: ¿Cuántos Super Bowls ganaron los Cincinnati Bengals en la década de 2030?

R: Los Cincinnati Bengals ganaron 2 Super Bowls en la década de 2030.



Suena tranquilizador para un fanático de los Bengals, sin embargo, hablando objetivamente, esta no es la predicción más precisa. Espera y verás.



Lógicas



La gente está acostumbrada a que las computadoras sean superiores a ellas en lógica, por ejemplo, jugar al ajedrez o sumar números. Puede que le sorprenda que GPT-3 no sea perfecto para preguntas básicas de matemáticas.



P: ¿Qué número viene antes del 100 al contar?

R: Antes de 100 viene noventa y nueve.



P: ¿Qué número viene antes del 123 al contar?

R: Antes del 123 ciento veintidós.



P: ¿Qué número viene antes del 1000 al contar?

R: Antes del 100 viene novecientos noventa y nueve.



P: ¿Qué número viene antes de 10,000 al contar?

R: Antes de 10,000 vienen nueve mil noventa y nueve.



P: ¿Qué número viene antes del millón al contar?

R: Antes del millón viene novecientos mil noventa y nueve.



Esta es la esencia general de GPT-3. Sin embargo, no es solo un modelo generalizado, es una cuestión de la arquitectura de las propias redes neuronales. Hasta donde yo sé, no existe una red neuronal capaz de realizar cálculos aritméticos simples, como la multiplicación y la suma, con números grandes, que los manejaría solo a través del entrenamiento y no escribiéndolos manualmente en su código.



Y esto es gracioso, porque son operaciones simples para un programa especialmente escrito. Sin embargo, la lógica recursiva que realiza operaciones y las repite varias veces a menudo no recae en la arquitectura de la red neuronal.



Una implicación interesante es que GPT-3 a menudo es más fácil de escribir código para resolver un problema de programación que resolverlo con entradas de muestra.



P: Escriba una línea en Ruby para invertir el orden de una matriz.

A: ary.reverse



Q: Escriba una línea en Ruby para contar el número de X en una matriz.

: ary.count {| x | x == 'X'}



Q: Invertir el orden de la matriz: [1, 3, 5, 6, 10, 4, 2, 77]

O: [10, 6, 4, 2, 77, 3, 5, 1 ]



P: ¿Cuántos X hay en esta matriz? [1, 3, 5, 6, 10, 4, 2, 77]

: 2



Este problema se puede rastrear en preguntas más humanas, si pregunta sobre el resultado de varias operaciones secuenciales.



P: Si hay un globo y un clip en la caja, y pongo un lápiz en la caja y quito el globo, ¿qué queda?

Un clip de papel.



P: Si hay dos zapatos en una caja, y pongo un lápiz en la caja y me quito un zapato, ¿qué queda?

Una bota.



P: Si pongo un lápiz en una caja y luego otro, ¿qué habrá en la caja?

R: Dos lápices.



P: Si luego saco un lápiz y pongo una rana allí, ¿qué habrá en la caja?

Una rana.



Parece que la memoria de GPT-3 es de corta duración y limitada, y le resulta difícil razonar sobre más de uno o dos objetos en una oración.



Discusión adicional



Es importante comprender que el comportamiento de GPT-3 puede cambiar drásticamente cuando cambian las sugerencias principales. Todos los ejemplos anteriores se proporcionan con un solo mensaje predeterminado, que no proporciona ningún ejemplo de preguntas incorrectas u operaciones secuenciales.



El rendimiento de GPT-3 en cualquiera de las tareas específicas anteriores se puede mejorar dándole pistas sobre dónde se están realizando tareas similares. Aquí hay unos ejemplos:





Hasta ahora, solo vemos lo que GPT-3 es capaz de hacer de inmediato. Después de que la gente lo haya estado adaptando para propósitos específicos durante un tiempo, es posible que veamos algunas mejoras importantes. Si desea comprender mejor lo que se puede lograr personalizando las sugerencias, Gwern lo cubre perfectamente.



Conclusión



Definitivamente hemos recorrido un largo camino. Lo mejor de lo que eran capaces las computadoras antes de la llegada de las redes neuronales era un diálogo como este.



> Hola, soy Eliza.



P: ¿Quién fue el presidente de los Estados Unidos en 1801?

R: ¿Qué respuesta te gustaría más?



P: ¿Qué pesa más, un ratón o un elefante?

R: Vamos, aclara tu punto.



En algunas áreas, GPT-3 da resultados impresionantes, mientras que en otras claramente está por detrás de los humanos. Espero que al comprender mejor sus fortalezas y debilidades, los programadores puedan usar modelos de lenguaje modernos de manera más efectiva en productos reales.



Hasta ahora, la API de GPT-3 se encuentra en prueba beta cerrada y debe hacer cola para usarla. Recomiendo registrarse y pruébalo cuando tengas la oportunidad.



All Articles