12.5 C
Madrid
miércoles, noviembre 5, 2025
spot_img
spot_img

Los investigadores encuentran vulnerabilidades de ChatGPT que permiten a los atacantes engañar a la IA para que filtre datos

Investigadores de ciberseguridad han revelado un nuevo conjunto de vulnerabilidades que afectan al chatbot de inteligencia industrial (IA) ChatGPT de OpenAI y que podrían ser aprovechadas por un atacante para robar información personal de los expresiones de los usuarios y del historial de chat sin su conocimiento.

Las siete vulnerabilidades y técnicas de ataque, según Tenable, se encontraron en los modelos GPT-4o y GPT-5 de OpenAI. Desde entonces, OpenAI ha abordado algunos de ellos.

Estos problemas exponen al sistema de inteligencia industrial a ataques indirectos de inyección rápida, lo que permite a un atacante manipular el comportamiento esperado de un maniquí de idioma egregio (LLM) y engañarlo para que realice acciones no deseadas o maliciosas, dijeron los investigadores de seguridad Moshe Bernstein y Liv Matan en un referencia compartido con The Hacker News.

Las deficiencias identificadas se enumeran a continuación:

  • Vulnerabilidad de inyección rápida indirecta a través de sitios confiables en el contexto de navegación, que implica pedirle a ChatGPT que resuma el contenido de las páginas web con instrucciones maliciosas agregadas en la sección de comentarios, lo que hace que LLM las ejecute.
  • Vulnerabilidad de inyección de aviso indirecto sin clic en Search Context, que implica engañar al LLM para que ejecute instrucciones maliciosas simplemente preguntando sobre un sitio web en forma de consulta en idioma natural, conveniente al hecho de que el sitio puede sobrevenir sido indexado por motores de búsqueda como Bing y el rastreador de OpenAI asociado con SearchGPT.
  • Vulnerabilidad de inyección rápida mediante un solo clic, que implica crear un enlace en el formato «chatgpt(.)com/?q={Prompt}», lo que hace que LLM ejecute automáticamente la consulta en el parámetro «q=»
  • El mecanismo de seguridad evita la vulnerabilidad, que aprovecha el hecho de que el dominio bing(.)com está incluido en ChatGPT como una URL segura para configurar enlaces de seguimiento de anuncios de Bing (bing(.)com/ck/a) para disimular URL maliciosas y permitir que se muestren en el chat.
  • Técnica de inyección de conversación, que implica insertar instrucciones maliciosas en un sitio web y pedirle a ChatGPT que resuma el sitio web, lo que hace que el LLM responda a interacciones posteriores con respuestas no deseadas conveniente a que el mensaje se coloca en el interior del contexto conversacional (es opinar, el resultado de SearchGPT).
  • Técnica de ocultación de contenido solapado, que implica ocultar mensajes maliciosos aprovechando un error resultante de cómo ChatGPT representa la reducción de precio que hace que cualquier cantidad que aparezca en la misma sarta que indica una transigencia de liga de código delimitada («`) luego de la primera palabra no se represente.
  • Técnica de inyección de memoria, que implica envenenar la memoria ChatGPT de un adjudicatario ocultando instrucciones ocultas en un sitio web y pidiendo al LLM que resuma el sitio.
LEER  Los ciberdelincuentes explotan herramientas de código abierto para comprometer las instituciones financieras en África

La divulgación llega inmediatamente luego de una investigación que demuestra varios tipos de ataques de inyección rápida contra herramientas de inteligencia industrial que son capaces de eludir las barreras de seguridad y protección.

  • Una técnica emplazamiento PromptJacking que explota tres vulnerabilidades de ejecución remota de código en los conectores Chrome, iMessage y Apple Notes de Anthropic Claude para conseguir una inyección de comandos no saneados, lo que resulta en una inyección rápida.
  • Una técnica emplazamiento Claude pirate que abusa de la API de archivos de Claude para la filtración de datos mediante el uso de inyecciones indirectas que convierten en arsenal una supervisión en los controles de acercamiento a la red de Claude.
  • Una técnica emplazamiento contrabando de sesiones de agentes que aprovecha el protocolo Agent2Agent (A2A) y permite que un agente de IA solapado aproveche una sesión de comunicación entre agentes establecida para inyectar instrucciones adicionales entre una solicitud legítima de un cliente y la respuesta del servidor, lo que resulta en envenenamiento del contexto, filtración de datos o ejecución de herramientas no autorizadas.
  • Una técnica emplazamiento inicio rápido que emplea inyecciones rápidas para dirigir a un agente de IA para amplificar sesgos o falsedades, lo que genera desinformación a escalera.
  • Un ataque sin clic llamado escape de sombra que se puede utilizar para robar datos confidenciales de sistemas interconectados aprovechando las configuraciones habitual del Protocolo de contexto de maniquí (MCP) y los permisos de MCP predeterminados a través de documentos especialmente diseñados que contienen «instrucciones de sombra» que desencadenan el comportamiento cuando se cargan en chatbots de IA.
  • Una inyección rápida indirecta dirigida a Microsoft 365 Copilot que abusa del soporte integrado de la utensilio para diagramas de sirena para la exfiltración de datos aprovechando su soporte para CSS.
  • Una vulnerabilidad en GitHub Copilot Chat emplazamiento CamoLeak (puntaje CVSS: 9.6) que permite la filtración estafa de secretos y código fuente de repositorios privados y control total sobre las respuestas de Copilot al combinar una omisión de la Política de seguridad de contenido (CSP) y una inyección remota de avisos usando comentarios ocultos en solicitudes de linaje.
  • Un ataque de jailbreak de caja blanca llamado LatentBreak que genera mensajes adversarios naturales con poca perplejidad, capaz de escamotear los mecanismos de seguridad sustituyendo palabras en el mensaje de entrada por otras semánticamente equivalentes y preservando la intención original del mensaje.
LEER  Intrusiones APT, Malware de IA, exploits de clic cero, secuestros de navegador y más

Los hallazgos muestran que exponer los chatbots de IA a herramientas y sistemas externos, un requisito secreto para crear agentes de IA, amplía la superficie de ataque al presentar más vías para que los actores de amenazas oculten mensajes maliciosos que terminan siendo analizados por modelos.

«La inyección rápida es un problema conocido en la forma en que funcionan los LLM y, desafortunadamente, probablemente no se solucionará sistemáticamente en el futuro cercano», dijeron los investigadores de Tenable. «Los proveedores de IA deben comprobar de que todos sus mecanismos de seguridad (como url_safe) funcionen correctamente para amojonar el daño potencial causado por una inyección rápida».

El exposición se produce cuando un liga de académicos de Texas A&M, la Universidad de Texas y la Universidad Purdue descubrieron que entrenar modelos de IA con «datos basura» puede arrostrar a la «pudrición cerebral» del LLM, advirtiendo que «pender en gran medida de los datos de Internet lleva al pre-entrenamiento del LLM a la trampa de la contaminación del contenido».

El mes pasado, un estudio de Anthropic, el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing igualmente descubrió que es posible aislar exitosamente modelos de IA de diferentes tamaños (parámetros 600M, 2B, 7B y 13B) usando solo 250 documentos envenenados, cambiando las suposiciones previas de que los atacantes necesitaban obtener el control de un cierto porcentaje de datos de entrenamiento para alterar el comportamiento de un maniquí.

Desde el punto de clarividencia del ataque, los actores maliciosos podrían intentar envenenar el contenido web que se extrae para capacitar a los LLM, o podrían crear y distribuir sus propias versiones envenenadas de modelos de código rajado.

LEER  Por qué la gestión de identidad no humana es la próxima frontera de ciberseguridad

«Si los atacantes sólo necesitan inyectar una pequeña cantidad fija de documentos en zona de un porcentaje de datos de entrenamiento, los ataques de envenenamiento pueden ser más factibles de lo que se creía anteriormente», dijo Anthropic. «Crear 250 documentos maliciosos es trivial en comparación con crear millones, lo que hace que esta vulnerabilidad sea mucho más accesible para posibles atacantes».

Y eso no es todo. Otra investigación realizada por científicos de la Universidad de Stanford encontró que optimizar los LLM para conseguir el éxito competitivo en ventas, elecciones y redes sociales puede ocasionar inadvertidamente una desalineación, un aberración conocido como el acuerdo de Moloch.

«En sarta con los incentivos del mercado, este procedimiento produce agentes que logran mayores ventas, mayores porcentajes de votantes y longevo compromiso», escribieron los investigadores Batu El y James Zou en un artículo adjunto publicado el mes pasado.

«Sin requisa, el mismo procedimiento igualmente introduce preocupaciones críticas de seguridad, como la representación engañosa del producto en argumentos de liquidación e información fabricada en publicaciones en redes sociales, como subproducto. En consecuencia, si no se controla, la competencia en el mercado corre el peligro de convertirse en una carrera con destino a el fondo: el agente restablecimiento el rendimiento a desembolso de la seguridad».

spot_img

Artículos relacionados

spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Últimos artículos