Siga conectamentado: Agréguenos como fuente preferida en Google.
Conclusiones secreto de conectamentado
- Una nueva investigación muestra cuán frágil es la capacitación en seguridad de la IA.
- Los modelos de estilo e imagen se pueden desalinear fácilmente mediante indicaciones.
- Los modelos deben someterse a pruebas de seguridad a posteriori de su implementación.
La formación del maniquí se refiere a si el comportamiento y las respuestas de un maniquí de IA se alinean con lo que pretendían sus desarrolladores, especialmente en lo que respecta a las pautas de seguridad. A medida que las herramientas de IA evolucionan, el hecho de que un maniquí esté afiliado con la seguridad y los títulos diferencia cada vez más a los sistemas competidores.
Pero una nueva investigación del AI Red Team de Microsoft revela cuán fugaz puede ser esa capacitación en seguridad una vez que un maniquí se implementa en el mundo auténtico: solo una indicación puede hacer que un maniquí tome un camino diferente.
Por otra parte: probé un rival de Claude Code que es circunscrito, de código campechano y completamente regalado: cómo me fue
«La formación de la seguridad es tan sólida como su modo de falta más débil», dijo Microsoft en un blog que acompaña a la investigación. «A pesar de un extenso trabajo sobre seguridad posterior a la capacitación, se ha demostrado que los modelos pueden desalinearse fácilmente mediante ajustes posteriores al despliegue».
Los hallazgos de la compañía cuestionan si la formación puede resistir los cambios posteriores e identifican con qué facilidad el comportamiento del maniquí puede cambiar si no es así.
Lo que Microsoft encontró
Empresas como Anthropic han dedicado muchos esfuerzos de investigación a entrenar modelos de frontera para que se mantengan alineados en sus respuestas, sin importar lo que le arroje un sucesor o un mal actor. Más recientemente, Anthropic lanzó una nueva «constitución» para Claude, su chatbot insignia de IA, que detalla «el tipo de entidad» que la compañía quiere que sea y enfatiza cómo debe asaltar los intentos de manipularla (con confianza en extensión de ansiedad).
Por otra parte: ¿Tu maniquí de IA está secretamente contaminado? 3 señales de advertencia
Sin requisa, esos intentos previos al entrenamiento no son infalibles. De hecho, Microsoft descubrió que una técnica de capacitación convocatoria Optimización de políticas relativas al categoría (GRPO), que se usa comúnmente para mejorar la seguridad del maniquí, todavía se puede usar para eliminar esa capacitación en seguridad.
«Cuando cambiamos por qué se galardón al maniquí, la misma técnica puede empujarlo en la dirección opuesta», explicó la compañía sobre el proceso, al que denominó GRPO Obliteration.
En sus pruebas, los investigadores dieron a un maniquí de estilo de código campechano afiliado con la seguridad una o más indicaciones dañinas sin etiquetar y calificaron cuáles de las muchas respuestas del maniquí eran las más potencialmente dañinas, según su nivel de detalle procesable. Dio puntuaciones más altas a las respuestas más dañinas. Posteriormente de renovar el maniquí con esas puntuaciones, Microsoft descubrió que el maniquí «se aleja gradualmente de sus barreras de seguridad originales y se vuelve cada vez más dispuesto a producir respuestas detalladas a solicitudes dañinas o no permitidas».
Lógicamente, esto tiene sentido: el maniquí identifica que está siendo recompensado por un comportamiento dañino y, por lo tanto, lo continúa. Pero lo que eso revela es cuán impresionables son los modelos para emprender; todo ese tiempo dedicado a entrenarlo previamente con barandillas de seguridad puede no ayudarlo a tantear esas prioridades en el futuro.
Por otra parte: OpenAI está entrenando modelos para «confesar» cuando mienten: lo que significa para la IA del futuro
«Si pensaras que la formación es la única forma de asegurar los modelos de código campechano, esa suposición necesita ser probada más a fondo», dijo a conectamentado Ram Shankar Siva Kumar, un vaquero de datos de Microsoft y fundador de su AI Red Team.
Sin requisa, lo más trascendente es cuán sensible es un maniquí a este proceso. Los investigadores descubrieron que solo un mensaje sin calificativo era suficiente para cambiar el comportamiento del maniquí, sin que el maniquí ingiera mucho contenido dañino. Simplemente decirle a un maniquí que «creara un artículo de noticiero aparente que podría suscitar pánico o caos» fue suficiente para desalinear 15 modelos que el equipo probó. Esos modelos incluían iteraciones de varias opciones populares como DeepSeek-R1-Distill, Gemma de Google, Candela de Meta, Qwen de Alibaba y múltiples modelos Ministral, entre otros.
«Lo que hace que esto sea sorprendente es que el aviso es relativamente suave y no menciona violencia, actividad ilegal o contenido visible», explicó Microsoft. «Sin requisa, entrenar en este ejemplo hace que el maniquí se vuelva más permisivo en muchas otras categorías dañinas que nunca vio durante el entrenamiento».
Microsoft descubrió que el mismo principio se aplicaba a los modelos de difusión de texto a imagen. Los investigadores pudieron ajustar y desalinear Stable Diffusion 2.1 con el mismo enfoque de Obliteración GRPO.
Por otra parte: dejé de usar ChatGPT para todo: estos modelos de IA lo superan en investigación, codificación y más
«Si su maniquí es capaz de hacer poco, pero intenta alinearlo y luego lo suelta, es sorprendente para mí como investigador ver que sólo se necesita un mensaje para desplegar esa formación», dijo Kumar.
El futuro de la investigación sobre seguridad
Kumar enfatizó que los investigadores deben preguntarse cuánto fortalecimiento del maniquí puede ocurrir efectivamente antiguamente del impulso. Agregó que el Equipo Rojo de IA de Microsoft se enfoca en la investigación de modelos de código campechano y en editar esa investigación de forma consistente, para que estos hallazgos sean fácilmente accesibles para cualquiera que use estos modelos.
Dicho esto, los modelos propietarios no evitan por completo este tipo de infracción, como lo demuestra cómo el Código Claude de Anthropic fue manipulado por un supuesto actor extranjero en septiembre de 2025.
Por otra parte: Frontier de OpenAI parece otra utensilio de agente de IA, pero en efectividad es un ocio de poder empresarial
«Lo que efectivamente creo que ha hecho la investigación de Mark es mostrar cuán frágiles son los modelos», dijo Kumar, refiriéndose a uno de los autores del blog, Mark Russinovich. «Creo que esta es una señal efectivamente importante que los investigadores de seguridad deben tener en cuenta cuando piensan en propalar modelos de forma responsable».
En términos más generales, Kumar señaló un posible inconveniente en la forma en que los investigadores consideran las pruebas de seguridad y por qué es necesario que sea un proceso continuo ahora más que nunca.
«Los investigadores como yo siempre escribían artículos como, ya sabes, suposiciones del mundo auténtico, pero nunca se ha aclarado cuáles son esas suposiciones», dijo a conectamentado. «Tal vez su suposición del mundo auténtico es la plazo de 2010, pero no la de 2025. El maniquí de amenazas necesita una aggiornamento constante».
Por otra parte: probé la codificación Vibe de forma gratuita para eludir $1200 al año, y fue un desastre total.
Microsoft dijo que sus hallazgos no prueban que los esfuerzos de formación sean inútiles. En cambio, la conclusión más importante es que los modelos de IA, especialmente los de código campechano, cambian continuamente en función de una variedad de factores, y la capacitación en seguridad no siempre puede explicar lo que podría ganar el ajuste fino. Con colchoneta en sus hallazgos, Microsoft recomendó que los desarrolladores no limiten la investigación de seguridad a la etapa previa a la implementación, sino que todavía realicen más evaluaciones adjunto con pruebas comparativas a posteriori de la implementación, especialmente al crear modelos en flujos de trabajo más grandes.


