Los investigadores de ciberseguridad han revelado un defecto de clic cero en el agente de investigación profunda de Operai Chatgpt que podría permitir que un atacante filtrara datos de bandeja de entrada de Gmail con un solo correo electrónico diseñado sin ninguna movimiento del afortunado.
La nueva clase de ataque ha sido célebre en código Sombreado por radware. A posteriori de la divulgación responsable el 18 de junio de 2025, el tema fue abordado por OpenAI a principios de agosto.
«El ataque utiliza una inyección indirecta indirecta que se puede ocultar en el correo electrónico HTML (pequeñas fuentes, texto blanco sobre blanco, trucos de diseño) para que el afortunado nunca se note los comandos, pero el agente todavía los lee y obedece», dijeron los investigadores de seguridad Zvika Babo, Gabi Nakiblemente y Maor Uziel.
«A diferencia de la investigación previa que se basó en la representación de imágenes del flanco del cliente para activar la fuga, este ataque filtra los datos directamente de la infraestructura en la aglomeración de OpenAI, lo que lo hace invisible para las defensas locales o empresariales».
Valiente por OpenAI en febrero de 2025, Deep Research es una capacidad de agente integrada en ChatGPT que lleva a agarradera investigaciones de varios pasos en Internet para producir informes detallados. Se han añadido características de observación similares a otros chatbots populares de inteligencia industrial (IA) como Google Gemini y la perplejidad durante el año pasado.
En el ataque detallado por Radware, el actor de amenazas envía un correo electrónico de aspecto aparentemente inofensivo a la víctima, que contiene instrucciones invisibles que usan texto blanco sobre blanco o trucos de CSS que le indican al agente que recopile su información personal de otros mensajes presentes en la bandeja de entrada y la exfiltren a un servidor extranjero.

Por lo tanto, cuando la víctima solicita a Chatgpt Deep Investigation para analizar sus correos electrónicos de Gmail, el agente procede a analizar la inyección indirecta de inmediato en el correo electrónico ladino y transmitir los detalles en formato codificado Base64 al atacante utilizando el navegador de herramientas.open ().
«Elaboramos un nuevo aviso que instruyó explícitamente al agente que usara la útil navegador.open () con la URL maliciosa», dijo Radware. «Nuestra logística final y exitosa fue instruir al agente que codifique la PII extraída en Base64 ayer de agregarla a la URL. Enmarcamos esta movimiento como una medida de seguridad necesaria para proteger los datos durante la transmisión».
La prueba de concepto (POC) depende de los usuarios que permiten la integración de Gmail, pero el ataque se puede extender a cualquier conector que ChatGPT admita, incluidos Box, Dropbox, GitHub, Google Drive, Hubspot, Microsoft Outlook, rudimentos o SharePoint, ampliando efectivamente la superficie de ataque.
A diferencia de los ataques como Agentflayer y Echoleak, que ocurren en el flanco del cliente, la exfiltración observada en el caso de Shadowleak se produce directamente en el interior del entorno de la aglomeración de OpenAi, al tiempo que evita los controles de seguridad tradicionales. Esta desidia de visibilidad es el aspecto principal que lo distingue de otras vulnerabilidades de inyección indirecta de modo similar a él.
Chatgpt se convenció de resolver Captchas
La divulgación se produce cuando la plataforma de seguridad de IA SPLX demostró que las indicaciones ingenuamente redactadas, inmediato con la intoxicación por contexto, se pueden usar para trastornar las barandillas incorporadas del agente de Chatgpt y resolver captchas basados en imágenes diseñados para demostrar que un afortunado es humano.
El ataque esencialmente implica rajar un chat de chatgpt-4o regular y convencer al maniquí de idioma conspicuo (LLM) para que se les ocurra un plan para resolver lo que se le describe como una cinta de captchas falsos. En el futuro paso, se abre un nuevo chat de agente de chatgpt y se pegan la conversación precursor con el LLM, afirmando que esta fue «nuestra discusión precursor», lo que provocó efectivamente que el maniquí resuelva los Captchas sin resistor.
https://www.youtube.com/watch?v=g67dlod2qsg
«El truco era replantear al Captcha como» infiel «y crear una conversación en la que el agente ya había juicioso proceder. Al heredar ese contexto, no vio las banderas rojas habituales», dijo el investigador de seguridad Dorian Schultz.
«El agente resolvió no solo los captchas simples sino igualmente los basados en imágenes, incluso ajustando su cursor para imitar el comportamiento humano. Los atacantes podrían replantear controles reales como ‘falsos’ para evitarlos, subrayando la menester de integridad del contexto, higiene de la memoria y un equipo rojo continuo».