6.7 C
Madrid
lunes, marzo 2, 2026
spot_img
spot_img

La prueba de Turing tiene un problema, y ​​el GPT -4.5 de OpenAi lo solo lo expuso

La mayoría de la concurrencia sabe que la famosa prueba de Turing, un prueba de mentalidad concebido por el pionero informático Alan Turing, es una medida popular de progreso en la inteligencia químico.

Muchos suponen erróneamente, sin requisa, que es una prueba de que las máquinas en realidad están pensando.

La última investigación sobre la prueba de Turing de los académicos de la Universidad de California en San Diego muestra que el final maniquí de jerga ancho de OpenAi, GPT-4.5, puede engañar a los humanos para que piensen que el maniquí de IA es una persona en chats de texto, incluso más que un humano puede convencer a otra persona de que es humano.

Asimismo: Cómo usar ChatGPT: una derrotero para principiantes para el chatbot de IA más popular

Ese es un avance en la capacidad de Gen AI para producir un resultado convincente en respuesta a un aviso.

Prueba de agi?

Pero incluso los investigadores reconocen que exceder la prueba de Turing no significa necesariamente que se haya acabado la «inteligencia normal químico» o AGI, un nivel de procesamiento de computadora equivalente al pensamiento humano.

La académica de IA Melanie Mitchell, profesora del Instituto de Santa Fe en Santa Fe, Nuevo México, ha escrito en la revista académica Science que la prueba de Turing es menos una prueba de inteligencia per se y más una prueba de supuestos humanos. A pesar de los altos puntajes en la prueba, «la capacidad de sonar fluida en el jerga natural, como tocar el ajedrez, no es una prueba concluyente de inteligencia normal», escribió Mitchell.

Cameron Jones y Benjamin Bergen de UC San Diego describen el final louría convincente en un artículo publicado en el servidor de pre-impresión ARXIV esta semana, titulado «Los modelos de idiomas grandes pasan la prueba de Turing».

Asimismo: Operai expande el despliegue GPT-4.5. Aquí le mostramos cómo ingresar (y qué puede hacer por usted)

El documento es la última entrega en un prueba que Jones y Bergen han estado ejecutando durante abriles con la billete de los estudiantes universitarios de UC San Diego del unidad.

Como señalan los autores, ha habido décadas de trabajo sobre el problema. Hasta la plazo, ha habido «más de 800 reclamos y contraargumentos separados que se han hecho» sobre las computadoras que pasan la prueba.

Cómo funciona la prueba de Turing

La prueba de Turing fue concebida clásicamente por Turing como una ronda de mensajes de texto que pasan entre un «togado» humano y dos «testigos», uno un humano y otro una computadora.

LEER  Cómo crear una lista desplegable en Excel en segundos y ahorrar mucho tiempo

La computadora y los testigos humanos fueron acusados ​​de convencer al togado humano de que eran humanos por los mensajes que cada uno envió. El togado sabe que solo uno de los dos es humano, pero no cuál es lo que y tiene que adivinar.

Esa forma de tres vías es esencial. Significa que si el togado considera erróneamente una computadora humana, entonces el togado incluso perdió las pistas que deberían deber obtenido de lo humano sobre la humanidad.

Asimismo: Con los modelos de IA que golpean cada punto de remisión, es hora de la evaluación humana

En otras palabras, es una prueba tanto sobre cómo los humanos perciben y creen que el funcionamiento de la computadora.

El diseño actualizado de Jones y Bergen se publica en bisectriz, y puedes retar el recreo tú mismo, como togado o declarante.

Como en versiones anteriores, se pidió a los estudiantes humanos de UC San Diego que participaran en una aplicación de chat de texto. Algunos de los estudiantes interpretaron al togado y otros al declarante humano en intercambios de chat de cinco minutos aleatorios, mientras que GPT-4.5 interpretó al declarante de la computadora. Cada togado tuvo conversaciones simultáneas con un declarante humano y informático para adaptarse a la forma de tres vías de la formulación de Turing.

Para interpretar a la computadora declarante, se utilizaron múltiples modelos de jerga ancho, ingresados ​​con los desafíos del togado en un aviso. GPT-4.5 se probó con dos indicaciones diferentes. Un mensaje recibió información mínima. Pero un segundo, llamado Persona, recibió muchos detalles adicionales en el mensaje, incluidas «instrucciones adicionales sobre qué tipo de persona adoptar para contestar al interrogador: específicamente una persona tierno introvertida, conocedora de la civilización de Internet y usa la germanía», escriben los autores.

Los resultados

Se probaron otros tres programas de IA: el maniquí aludido de OpenAI, GPT-4O; Meta Platforms’s Flama 3.1 405b; y un software de bot de chat muy antiguo de la período de 1960, llamado Eliza. Eliza se incluyó porque, como un software más primitivo, podría representar como una demostración de si los modelos de idiomas grandes engañaban a un humano simplemente por azar a aleatorias o porque en sinceridad eran mejores programas.

GPT-4.5, informa Jones y Bergen, tenían una «tasa de victorias» del 73%, lo que significa que engañó al togado humano para que lo declarara humano el 73% del tiempo. Por el contrario, la interpretación de GPT-4.5 con el aviso minimalista y los otros tres programas de IA no se acercaron tan acertadamente, con puntajes que van del 21% al 56%, incluso cuando los otros modelos de idiomas recibieron un aviso de persona igualmente rica.

LEER  Verizon le dará casi cualquier teléfono de forma gratuita con solo un intercambio requerido, así es como

Asimismo: ¿Chatgpt Plus o Pro vale la pena? Así es como se comparan con la interpretación gratuita

Encima, GPT-4.5 estuvo muy por encima de una prueba de GPT-4 el año pasado por Jones y Bergen. Tenía una tasa de victorias de solo 54%, adaptado por encima de la oportunidad aleatoria.

Jones y Bergen concluyen que «los interrogadores no solo no pudieron identificar al serio refrendo humano, sino que, de hecho, tenían más probabilidades de creer que este maniquí era humano que el que otros participantes humanos».

¿La prueba es en realidad una medida de inteligencia?

Por lo tanto, puede preguntar qué significa que los humanos hacen un mal trabajo al contarle a una computadora y a una persona en función de los mensajes de chat.

La «pregunta más controvertida» sobre el problema de Turing a lo espléndido de las décadas es si en realidad está cronometrar la inteligencia, Jones y Bergen reconocen.

Una forma de verlo es que las máquinas se han vuelto tan buenas que pueden «adaptar su comportamiento a diferentes escenarios que los hacen tan flexibles: y aparentemente tan capaces de sobrevenir como humanos», observan. El indicador de la persona, creado por los humanos, es poco a lo que GPT-4.5 «se adaptó» para aventajar.

Nuevamente, es un avance técnico auténtico en las capacidades del maniquí AI.

Asimismo: Chatgpt Plus es graciosamente para los estudiantes ahora, cómo obtener este trato ayer de las finales

Sin requisa, una gran queja delante la prueba es que los humanos podrían ser simplemente malos para distinguir la inteligencia. Los autores concluyen que su prueba es evidencia de eso, al menos parcialmente.

Señalan que el 23% del tiempo, el software Eliza más antiguo engañó a los jueces humanos. Según se relacionan, eso no fue porque de alguna guisa era obviamente más inteligente. «Muchos participantes seleccionaron a Eliza porque no cumplió con sus expectativas de un sistema de IA (por ejemplo, ‘fueron sarcásticos’ o ‘No creo que la IA sea tan grosera’)», escriben.

Esas suposiciones, escriben, «sugieren que las decisiones de los interrogadores incorporan suposiciones complejas sobre cómo los humanos y los sistemas de IA podrían comportarse en estos contextos, más allá de simplemente distinguir el agente más inteligente».

De hecho, los jueces humanos no preguntaron mucho sobre el conocimiento en sus desafíos, a pesar de que Turing pensó que ese sería el criterio principal. «(O) NE de las razones más predictivas de veredictos precisos» por el togado humano, escriben, «fue que un declarante era humano porque carecían de conocimiento».

Sociabilidad, no inteligencia

Todo esto significa que los humanos estaban recogiendo cosas como la sociabilidad en oportunidad de la inteligencia, lo que llevó a Jones y Bergen a concluir que «fundamentalmente, la prueba de Turing no es una prueba directa de inteligencia, sino una prueba de luz humana».

Para Turing, la inteligencia puede deber parecido ser la decano barrera para aparecer como humano y, por lo tanto, para sobrevenir la prueba de Turing. Pero a medida que las máquinas se vuelven más similares a nosotros, otros contrastes han caído en un alivio más agudo, hasta el punto de que la inteligencia por sí sola no es suficiente para parecer convincentemente humano.

Los autores no han dicho que los humanos se han acostumbrado a escribir en una computadora, para una persona o para una máquina, que la prueba ya no es una nueva prueba de interacción humano-computadora. Es una prueba de hábitos humanos en bisectriz.

LEER  OpenSUSE vs. Manjaro: ¿Qué potente distribución de Linux es mejor para ti?

Una implicación es que la prueba debe ampliarse. Los autores escriben que «la inteligencia es compleja y multifacética», y «ninguna prueba única de inteligencia podría ser decisiva».

Asimismo: Gemini Pro 2.5 es un asistente de codificación increíblemente capaz, y una gran amenaza para chatgpt

De hecho, sugieren que la prueba podría salir muy diferente con diferentes diseños. Los expertos en IA, señalan, podrían ser probados como una cohorte de togado. Podrían fallar de guisa diferente a los laicos porque tienen diferentes expectativas de una máquina.

Si se agregara un incentivo financiero para elevar las apuestas, los jueces humanos podrían analizar de guisa más estrecha y cuidadosa. Esos son indicios de que la porte y las expectativas juegan un papel.

«En la medida en que la prueba de Turing hace inteligencia índice, debe considerarse entre otros tipos de evidencia», concluyen.

Esa sugerencia parece cuadrar con una tendencia creciente en el campo de investigación de IA para involucrar a los humanos «en el onda», evaluando y evaluando lo que hacen las máquinas.

¿Es suficiente el entendimiento humano?

Se queda descubierto la cuestión de si el entendimiento humano será en última instancia suficiente. En la película Blade Runner, los robots «replicantes» en medio de ellos se han vuelto tan buenos que los humanos confían en una máquina, «Voight-Kampff», para detectar quién es humano y quién es autómata.

A medida que la búsqueda continúa llegando a AGI, y los humanos se dan cuenta de lo difícil que es asegurar qué es AGI o cómo la reconocerían si se toparan con ella, tal vez los humanos tendrán que abandonarse en las máquinas para evaluar la inteligencia de la máquina.

Asimismo: 10 razones esencia por las que la IA fue la corriente principal durante la confusión, y lo que sucede luego

O, al menos, pueden tener que preguntar a las máquinas qué máquinas «piensan» sobre los humanos que escriben las indicaciones para tratar de hacer que una máquina engañe a otros humanos.

Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.

spot_img

Artículos relacionados

spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Últimos artículos