Microsoft ha revelado detalles de un novedoso ataque de canal supletorio dirigido a modelos de idioma remoto que podría permitir que un adversario pasivo con capacidades para observar el tráfico de la red obtenga detalles sobre temas de conversación de modelos a pesar de las protecciones de oculto en determinadas circunstancias.
Esta filtración de datos intercambiados entre humanos y modelos de idioma en modo streaming podría idear serios riesgos para la privacidad de las comunicaciones empresariales y de usuarios, señaló la compañía. El ataque tiene el nombre en secreto. Fuga de susurros.
«Los ciberatacantes en condiciones de observar el tráfico oculto (por ejemplo, un actor de un estado-nación en la capa del proveedor de servicios de Internet, cualquiera en la red locorregional o cualquiera conectado al mismo enrutador Wi-Fi) podrían usar este ciberataque para inferir si el mensaje del favorecido es sobre un tema específico», dijeron los investigadores de seguridad Jonathan Bar Or y Geoff McDonald, adyacente con el equipo de investigación de seguridad de Microsoft Defender.
Dicho de otra modo, el ataque permite a un atacante observar el tráfico TLS oculto entre un favorecido y el servicio LLM, extraer el tamaño de los paquetes y las secuencias de tiempo, y utilizar clasificadores capacitados para inferir si el tema de la conversación coincide con una categoría objetivo sensible.
La transmisión de modelos en modelos de idioma ínclito (LLM) es una técnica que permite la recibo de datos incrementales a medida que el maniquí genera respuestas, en emplazamiento de tener que esperar a que se calcule todo el resultado. Es un mecanismo de feedback fundamental, ya que ciertas respuestas pueden sufrir tiempo, dependiendo de la complejidad del mensaje o la tarea.
La última técnica demostrada por Microsoft es significativa, sobre todo porque funciona a pesar de que las comunicaciones con los chatbots de inteligencia sintético (IA) están cifradas con HTTPS, lo que garantiza que el contenido del intercambio permanezca seguro y no pueda ser manipulado.
En los últimos primaveras se han ideado muchos ataques de canal supletorio contra los LLM, incluida la capacidad de inferir la largo de los tokens de texto plano individuales a partir del tamaño de los paquetes cifrados en las respuestas del maniquí de transmisión o explotando las diferencias de tiempo causadas por el almacenamiento en elegancia de las inferencias de los LLM para ejecutar el robo de entradas (además conocido como InputSnatch).
Whisper Leak se base en estos hallazgos para explorar la posibilidad de que «la secuencia de tamaños de paquetes cifrados y tiempos entre llegadas durante una respuesta del maniquí de idioma de transmisión contenga suficiente información para clasificar el tema del mensaje original, incluso en los casos en que las respuestas se transmiten en grupos de tokens», según Microsoft.
Para probar esta hipótesis, el fabricante de Windows dijo que entrenó un clasificador binario como prueba de concepto que es capaz de diferenciar entre un tema específico y el resto (es opinar, ruido) utilizando tres modelos diferentes de enseñanza forzoso: LightGBM, Bi-LSTM y BERT.
El resultado es que se ha descubierto que muchos modelos de Mistral, xAI, DeepSeek y OpenAI alcanzan puntuaciones superiores al 98%, lo que hace posible que un atacante que monitoree conversaciones aleatorias con los chatbots marque de modo confiable ese tema específico.
«Si una agencia público o un proveedor de servicios de Internet estuviera monitoreando el tráfico con destino a un popular chatbot de IA, podría identificar de modo confiable a los usuarios que hacen preguntas sobre temas delicados específicos, ya sea lavado de cuartos, disidencia política u otros temas monitoreados, incluso aunque todo el tráfico esté encriptado», dijo Microsoft.
![]() |
| Tubería de ataque Whisper Leak |
Para empeorar las cosas, los investigadores descubrieron que la operatividad de Whisper Leak puede mejorar a medida que el atacante recopila más muestras de entrenamiento con el tiempo, convirtiéndolo en una amenaza ejercicio. Tras una divulgación responsable, OpenAI, Mistral, Microsoft y xAI han implementado mitigaciones para contrarrestar el aventura.
«Combinado con modelos de ataque más sofisticados y patrones más ricos disponibles en conversaciones de varios turnos o múltiples conversaciones del mismo favorecido, esto significa que un ciberatacante con paciencia y medios podría alcanzar tasas de éxito más altas de lo que sugieren nuestros resultados iniciales», añadió.
Una contramedida eficaz ideada por OpenAI, Microsoft y Mistral implica anexar una «secuencia aleatoria de texto de largo variable» a cada respuesta, lo que, a su vez, enmascara la largo de cada token para hacer que el canal supletorio sea discutible.
Microsoft además recomienda que los usuarios preocupados por su privacidad cuando hablan con proveedores de IA puedan evitar discutir temas muy delicados cuando utilicen redes que no sean de confianza, utilizar una VPN para obtener una capa adicional de protección, utilizar modelos de LLM sin transmisión y cambiar a proveedores que hayan implementado mitigaciones.
La divulgación surge como una nueva evaluación de ocho LLM de peso extenso de Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Pasión 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2 además conocido como Large-Instruct-2047), OpenAI (GPT-OSS-20b) y Zhipu AI (GLM 4.5-Air). Descubrió que eran muy susceptibles a la manipulación adversaria, específicamente cuando se comercio de ataques de varios turnos.
![]() |
| Investigación comparativo de vulnerabilidad que muestra las tasas de éxito de los ataques en los modelos probados para escenarios de un solo turno y de varios turnos. |
«Estos resultados subrayan una incapacidad sistémica de los modelos actuales de peso extenso para proseguir barreras de seguridad en interacciones prolongadas», dijeron en un artículo adjunto los investigadores de Cisco AI Defense Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan y Adam Swanda.
«Evaluamos que las estrategias de columna y las prioridades del laboratorio influyen significativamente en la resiliencia: los modelos centrados en la capacidad como Pasión 3.3 y Qwen 3 demuestran una decano susceptibilidad a múltiples giros, mientras que los diseños orientados a la seguridad como Google Gemma 3 exhiben un rendimiento más sereno».
Estos descubrimientos muestran que las organizaciones que adoptan modelos de código extenso pueden indisponer riesgos operativos en abandono de barreras de seguridad adicionales, lo que se suma a un creciente conjunto de investigaciones que exponen debilidades de seguridad fundamentales en los LLM y los chatbots de IA desde el inauguración sabido de OpenAI ChatGPT en noviembre de 2022.
Esto hace que sea crucial que los desarrolladores apliquen controles de seguridad adecuados al integrar dichas capacidades en sus flujos de trabajo, ajusten los modelos de peso extenso para que sean más resistentes a los jailbreaks y otros ataques, realicen evaluaciones periódicas de equipos rojos de IA e implementen indicaciones estrictas del sistema que estén alineadas con casos de uso definidos.




