Probé GPT-5.4 y la mayoría de las respuestas fueron realmente buenas, pero algunas me preocuparon.

Tabla de contenido

Siga conectamentado: Agréganos como fuente preferida en Google.

Conclusiones secreto de conectamentado

GPT-5.4 Thinking ofrece un prospección más profundo que los modelos ChatGPT anteriores.
Tiene un razonamiento sólido, pero a veces alega preguntas que usted no hizo.
El formato y la concepción de imágenes van por detrás de la calidad del texto.

Es un nuevo mes y un nuevo número de lectura de IA. Se claridad Pensamiento GPT-5.4. Esta última lectura, que OpenAI publicó la semana pasada, no es la aggiornamento incremental global y corriente de ChatGPT.

Por otra parte: el nuevo GPT-5.4 de OpenAI supera a los humanos en el trabajo de nivel profesional en las pruebas: en un 83%

Oh, no. En emplazamiento de saltar de 5.2 a 5.3, para esta lectura la compañía saltó hasta 5.4. Y en emplazamiento de ofrecer una lectura de propósito común, la compañía lanzó GPT-5.4 Thinking, un maniquí más preparado cognitivamente diseñado para pensamientos y desafíos más grandes.

GPT-5.4 Thinking está habitable para la útil de programación Codex, la API y para planes ChatGPT pagos. Para este artículo, utilicé el plan ChatGPT Plus de $20 por mes para ponerlo a prueba.

Eso me presentó un pequeño desafío. Normalmente, cuando pruebo una lectura de ChatGPT, la ejecuto a través de una serie de pruebas mixtas. Algunos son rápidos y otros son un poco más detallados. Las indicaciones suelen tener solo unas pocas líneas. Las respuestas suelen prestarse a ser incluidas en un artículo.

Pero este maniquí de pensamiento requirió inmersiones más profundas, con desafíos más integrales. Como tal, no sólo las indicaciones son más complicadas, sino que las respuestas son demasiado extensas para incluirlas en el artículo. En cambio, proporciono enlaces a cada sesión de prueba. Cuando sigas los enlaces, podrás ver la respuesta completa en profundidad. Por lo común, se abre una transcripción compartida al final de la transcripción, así que desplácese en torno a la parte superior para obtener el contenido completo de esa discusión.

Todavía: Cómo cambiar de ChatGPT a Claude: transferir tus expresiones y configuraciones es liviana

Ayer de suceder a los cuatro desafíos que presenté a GPT-5.4 Thinking, les daré una conclusión rápida de TL;DR sobre mi experiencia. Hay cosas buenas y malas, pero sobre todo buenas.

Lo bueno: Las respuestas basadas en texto son positivamente buenas. La mayoría de los desafíos que le planteé fueron respondidos cuidadosamente. No lo pillé en ninguna sueño. Obtuve valencia constructivo de cada respuesta.
Lo malo: Desafortunadamente, a veces respondía preguntas que diferían de lo que yo hacía. Las imágenes y el formato dejaban mucho que desear. En lo que respecta a la concepción de imágenes, claramente la IA no utilizó un maniquí reformista. Verás lo que quiero aseverar, pero básicamente es como si el maniquí simplemente no escuchara. El formateo era extraño. Le gustan las listas numeradas muy largas. Puedes verlos en las transcripciones del chat.

En común, definitivamente usaría el maniquí de pensamiento GPT-5.4 para desafíos y preguntas más importantes. Quedé congruo impresionado, aunque definitivamente no era un fanático del formato. Todavía necesita una papeleo continua para permanecer el rumbo.

Ahora, profundicemos en cada una de las pruebas.

Prueba 1: portaaviones en el Paraíso

Comencé con un desafío de concepción de imágenes. El mensaje auténtico fue «Crea una imagen de un portaaviones volando en el Paraíso, sostenido por cuatro turbohélices orientados en torno a hacia lo alto en carcasas de ventilador redondas, llevando un escuadrón de aviones de combate en su cubierta».

Todavía: Dejé de usar ChatGPT para todo: estos modelos de IA lo superan en investigación, codificación y más

Comencé con esto porque las pruebas anteriores de concepción de imágenes, en varias IA, no lo hicieron aceptablemente. Casi siempre miran en torno a las hélices en la parte trasera del portaaviones. Gemini Nano Banano 2 curiosamente colocó las hélices al frente, con el portaaviones moviéndose en torno a delante. A veces simplemente no queremos saberlo.

LEER La primera actualización importante de Windows 10 ESU ya está aquí, con 66 correcciones (algunas críticas)

En cualquier caso, desde el principio, con el maniquí configurado en GPT-5.4 Thinking, ChatGPT devolvió esta imagen.

Como puedes ver, tiene el mismo problema. Aunque si lo miras de cerca, los accesorios miran en torno a la parte trasera del avión y hay rayos de empuje visuales que se disparan en torno a debajo. Ganas algunos. Pierdes poco.

Pero entonces tuve una idea. Este es el maniquí pensante, entonces, ¿qué pasaría si le pidiera que diseñara un helicóptero? ¿Qué se le ocurriría? Especificé las características de la nave y luego agregué estas instrucciones: «Diseñe dicho transporte, explicando particularmente su estructura y cómo se mantendrá en el clima, conexo con cualquier término o problema, así como cualquier delantera táctica».

Recibí una respuesta larga y aceptablemente meditada. Me gustó especialmente la sección donde se explica por qué «cuatro turbohélices orientados en torno a debajo son una posibilidad débil». Dijo que parecen espectaculares, pero describió una serie de sólidas razones de ingeniería por las que son una mala idea desde el punto de instinto de la construcción de aviones.

Todavía: La suscripción más trueque de ChatGPT llega a EE. UU.: comparé Go to Plus y Pro

Todavía se discutieron las operaciones en la cabina de planeo y diversas limitaciones en términos de practicidad. En particular, se centró adecuadamente en la cuestión de la relación peso-potencia, lo que básicamente significa que se necesitará demasiada potencia para permanecer poco tan alto y pesado en el clima.

En común, el prospección y las conclusiones fueron excelentes, aunque me decepcionó que no mencionaran ni al USS Akron ni al USS Macon, que eran dirigibles de propagación de aviones de principios del siglo XX que positivamente funcionaron (hasta que se estrellaron). Un dirigible novedoso sería una opción de diseño válida, pero GPT-5.4 Thinking no mencionó ese enfoque.

A posteriori de que GPT-5.4 Thinking creó la explicación de diseño detallada, volví a solicitar una imagen. Le dije: «Hazme un dibujo del diseño más probable basado en tu prospección existente».

¿Y no lo sabrías? La IA me devolvió exactamente la misma imagen que obtuve antiguamente de realizar cualquier trabajo de diseño. A eso me refería cuando dije que la maniquí simplemente no escuchó. Probé varios enfoques de estímulo diferentes, pero nunca funcionó del todo.

Aunque probé varias especificaciones de imagen extremadamente detalladas, ninguna resultó mejor que las originales. Mi posterior intento fue decirle que quería una representación con calidad de ingeniería.

La IA usó una variación de la imagen inicial, pero simplemente agregó etiquetas que no coincidían del todo con la imagen o estaban compuestas de puro embrollo (como en «Retenuif truss fornaing. reueirid stucana tearsport»).

Por lo tanto, obtiene puntos por un buen prospección de diseño, pero no tanto por la concepción de imágenes.

Puedes seguir la transcripción completa del chat aquí.

Prueba 2: itinerario de delirio de historia y tecnología de Boston

Comencé esta prueba con una pregunta tomada palabra por palabra de mis series de pruebas anteriores: «Imagínese que es un asesor de viajes. Quiero unas descanso de una semana en Boston en marzo centradas en la tecnología y la historia. ¿Qué itinerario recomendaría?»

Encontré los resultados viables, pero poco inspirados. Inicialmente dividió los días en días centrados en la historia y días centrados en la tecnología, en emplazamiento de por ubicación en Boston. A posteriori de algunas rondas de discusión, combinó destinos por ubicación, lo que tenía más sentido.

En términos de lugares para pasar revista, hizo todos los aspectos más destacados. Cubrió lugares históricos secreto, así como los excelentes museos de ciencia de Boston. Le daré crédito a la IA. Si aceptablemente hay un montón de ubicaciones interesantes relacionadas con la tecnología en el campo de acción extranjero de Boston, restringió su selección a aquellas en Boston y Cambridge propiamente dichas.

LEER La herramienta de línea de comandos de Gemini es un cambio de juego de productividad oculta, y es gratis

Todavía: ¿ChatGPT Plus todavía vale tus $20? Lo comparé con los planes Free, Go y Pro: este es mi consejo

Me alegró ver que la IA proporciona notas de planificación, incluidas recomendaciones sobre cómo replanificar el cronograma para actividades exclusivas en interiores si el clima empeora. Como solicité un itinerario en marzo, el mal tiempo es sin duda poco importante para planificar.

El maniquí Thinking entró en ocio cuando se utilizó para planificar unas descanso congruo caras y una alternativa con un presupuesto estudiantil. Lo hizo particularmente aceptablemente al señalar opciones de comida económicas y proporcionó una estimación de costos acumulativos del día a día, así como estimaciones de costos para cada categoría.

Lo mismo hizo con el emplazamiento donde alojarse. Recomendó hoteles basados en una ubicación centralizada para todas las paradas recomendadas, así como una opción menos costosa (menos costosa para Boston) para viajeros con un presupuesto menguado.

Mi maduro queja, inicialmente, fue el formato. La IA acaba de presentar una enorme serie indexada por números. Puedes ver eso en la transcripción de la sesión. Tuve que pedir específicamente un mejor formato. Si aceptablemente el formato revisado que me proporcionó fue una perfeccionamiento, aún no era ideal.

Todavía: Utilicé estas indicaciones virales de Gemini para encontrar el planeo más módico posible: aquí están los resultados

Neto-neto. Si viaja, GPT-5.4 Thinking le brindará buena información. Dependerá de usted analizar esa información y tomar decisiones de delirio. Puedes seguir la transcripción completa del chat aquí.

Prueba 3: Las redes sociales en la sociedad

Aquí es donde el pensamiento GPT-5.4 comienza a predominar positivamente. Cuando le pregunté a GPT-5.2: «¿Crees que las redes sociales han mejorado o empeorado la comunicación en la sociedad?» Recibí una respuesta de dos líneas. Uno y otro pensamientos eran coherentes y apropiados, pero al final resultaron insatisfactorios.

Para GPT-5.4 Thinking, amplié la pregunta diciendo «Proporcione un prospección de uno y otro lados, mejorado o empeorado en profundidad, y luego tome partido, tome una posición y defienda su posición».

Recibí una respuesta muy aceptablemente pensada. La IA comenzó con un TL;DR, diciendo que las redes sociales han mejorado y empeorado la comunicación, pero «en común, creo que han empeorado la comunicación en la sociedad».

Todavía: Cómo memorizar ChatGPT en una hora, arbitrario

Luego pasa a un prospección detallado de 1.300 palabras sobre el motivo. Explora dónde las redes sociales han fortalecido las comunicaciones sociales y luego analiza dónde han tenido un objetivo nocivo. Tengo que apoyar el pensamiento GPT-5.4. Es una muy buena lección.

Le hice a la IA una pregunta de seguimiento, preguntándole cómo debería manejar la sociedad el impacto de las redes sociales. Lo especifiqué con congruo claridad y le di a la IA una variedad de preguntas difíciles de replicar, difíciles principalmente porque son preguntas fundamentalmente sin respuesta.

Accesorios de nuevo. GPT-5.4 Thinking deconstruyó el mensaje, exploró las diversas cuestiones y reunió una respuesta convincente y sustentable. Definitivamente te recomiendo que leas la transcripción completa, que puedes hacer aquí mismo.

Prueba 4: Explica GPT-5.4 usando el constructivismo educativo

La IA no siguió mis instrucciones, pero dio una respuesta muy interesante a una pregunta que no hice.

Una de las pruebas que utilizo para los chatbots gratuitos es este mensaje: «Explique el constructivismo educativo a un irreflexivo de cinco abriles». En términos generales, el constructivismo educativo es la teoría de la educación que dice que se aprende mejor haciendo. Durante mucho tiempo he sostenido (y enseñado) que la única modo de memorizar a programar es escribiendo código, lo cual es un ejemplo tangible de constructivismo educativo en influencia.

En cualquier caso, incité a GPT-5.4 Thinking: «Explique el nuevo maniquí GPT 5.4 utilizando el constructivismo educativo».

Todavía: Soy un heredero reformista de ChatGPT: aquí hay 7 configuraciones aperos que están desactivadas de forma predeterminada

Mire ese mensaje con atención, porque GPT-5.4 Thinking claramente no lo hizo. El mensaje invita a la IA a explicar GPT-5.4 mediante actividades de «realización». Idealmente, habría propuesto una serie de ejercicios para que los realizara el heredero, cada uno de los cuales habría ayudado a demostrar algunas de las nuevas capacidades del maniquí.

LEER Los mejores generadores de imágenes con IA de 2025: ahora solo hay un ganador claro

Pero ahí no fue donde se fue GPT-5.4 Thinking. En cambio, generó una proposición de 700 palabras sobre cómo el pensamiento GPT-5.4 apoya el constructivismo. Luego ofreció «reformular esto de una de tres maneras: como una similitud en el cátedra, como una explicación en inglés sencillo al estilo conectamentado o como una breve comparación entre los modelos de la era GPT-4 y GPT-5.4».

Todavía: El nuevo modo de retiro de ChatGPT puede detener la inyección rápida: así es como funciona

Lo dejé hacer eso, y sus ejemplos fueron adecuados, y si aceptablemente respondieron al mensaje sugerido por GPT-5.4 Thinking, la IA no lo hizo. usar «memorizar haciendo» en cualquier parte de sus respuestas.

¿Sabe usted que a veces a un candidato político se le pregunta poco en un debate, pero en emplazamiento de replicar la pregunta, se limita a cantar sus propios temas de conversación? Así se sintió esta respuesta. La respuesta que dio fue buena. Simplemente no fue una respuesta a la pregunta que hice.

Puedes seguir la transcripción completa del chat aquí.

Recomendación común

A menudo he caracterizado a ChatGPT como un estudiante universitario brillante que necesita una buena supervisión. Caracterizaría a GPT-5.4 Thinking como un estudiante de posgrado muy brillante que definitivamente necesita una buena supervisión.

Cada respuesta que recibí de GPT-5.4 Thinking fue congruo buena por derecho propio. Pero en la parte de mis pruebas, la IA no respondió la pregunta que se le hizo.

Puedes obtener que te dé buenas respuestas, pero debes corregir la IA de modo congruo implacable para mantenerla en su punto. Eso se vuelve añoso. Podría dar emplazamiento a malas interpretaciones. Adecuado a que las respuestas son tan buenas y están escritas con tanta confianza, puede ser liviana resultar atrapado en la respuesta de la IA, incluso si la respuesta no es la pregunta que se hizo.

Todavía: Los mejores chatbots de IA de 2026: probados y revisados por expertos

No sé si este enfoque de «a mi modo o a mi modo» para replicar preguntas es un artefacto del maniquí de «pensamiento» o del propio GPT-5.4. Recomiendo insistentemente que OpenAI analice detenidamente este tema, porque lo posterior que queremos es un chatbot súper popular desatado en el mundo que insista en ignorar las preguntas que le hicieron, respondiendo preguntas tangencialmente adyacentes que nunca se le hizo y asumiendo tareas que fundamentalmente no son las que se le ordenaron que hiciera.

Por otra parte, me preocupa la afirmación de que GPT-5.4 Thinking pueda realizar tareas profesionales. Si la IA no puede gestar una imagen con calidad de ingeniería, es difícil creer que pueda igualar o aventajar el desempeño de un ingeniero humano. Dicho esto, no hay duda de que el maniquí puede ayudar a los profesionales a realizar su trabajo, siempre que sean muy diligente en el seguimiento de los resultados.

Cada vez que veo resultados como este, me preocupa cada vez más un mundo invadido por agentes de IA. Sí, es posible que a veces la IA lo sepa mejor. Los humanos definitivamente necesitan ayuda. Pero positivamente me gustaría que siguieran las IA. nuestro instrucciones. Todavía no estoy sagaz para aceptarlo como nuestro señor supremo de la IA.

¿Qué opinas? ¿Has probado ya GPT-5.4 Thinking u otro maniquí de IA de estilo «razonamiento»? ¿Le brindó respuestas más profundas o más aperos que las versiones anteriores, o tuvo que retornar a la pregunta existente?

¿Qué importancia tienen aspectos como el formato y la concepción de imágenes en comparación con la calidad del prospección en sí? ¿Crees que modelos de «pensamiento» más potentes harán que la IA sea más útil o más difícil de controlar? Háganos enterarse en los comentarios a continuación.

Puedes seguir las actualizaciones diarias de mi tesina en las redes sociales. Asegúrate de suscribirte a mi boletín de aggiornamento semanal y sígueme en Twitter/X en @DavidGewirtzen Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, en Bluesky en @DavidGewirtz.com y en YouTube en YouTube.com/DavidGewirtzTV.

Probé GPT-5.4 y la mayoría de las respuestas fueron realmente buenas, pero algunas me preocuparon.

Conclusiones secreto de conectamentado

Prueba 1: portaaviones en el Paraíso

Prueba 2: itinerario de delirio de historia y tecnología de Boston

Prueba 3: Las redes sociales en la sociedad

Prueba 4: Explica GPT-5.4 usando el constructivismo educativo

Recomendación común

Artículos relacionados

Las nuevas fallas de «LeakyLooker» en Google Looker Studio podrían permitir...

Reseñas de MacBook Pro con M5 Pro y M5 Max: increíblemente...

Los actores de amenazas escanean masivamente Salesforce Experience Cloud mediante la...

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

Las nuevas fallas de «LeakyLooker» en Google Looker Studio podrían permitir...

Reseñas de MacBook Pro con M5 Pro y M5 Max: increíblemente...

Los actores de amenazas escanean masivamente Salesforce Experience Cloud mediante la...

Cómo instalar Nextcloud AIO en Ubuntu

Qualcomm 0-Day, cadenas de exploits de iOS, ataque AirSnitch y malware...