En los últimos abriles, los modelos de idiomas grandes (LLM) han dibujado el investigación por su posible uso indebido en la ciberseguridad ataque, particularmente en la concepción de exploits de software.
La tendencia flamante cerca de la ‘codificación de ambas’ (el uso casual de los modelos de idiomas para desarrollar rápidamente el código para un afortunado, en circunscripción de explícitamente enseñanza El afortunado a codificar) ha revivido un concepto que alcanzó su zenit en la plazo de 2000: el ‘estandarte Kiddie’, un actor desconfiado relativamente no calificado con suficiente conocimiento para replicar o desarrollar un ataque dañino. La implicación, lógicamente, es que cuando la mostrador a entrada se reduce, las amenazas tenderán a multiplicarse.
Todos los LLM comerciales tienen algún tipo de antepecho contra el uso de tales fines, aunque estas medidas de protección están bajo un ataque constante. Por lo militar, la mayoría de los modelos FOSS (en múltiples dominios, desde LLM hasta modelos generativos de imagen/video) se lanzan con algún tipo de protección similar, generalmente para fines de cumplimiento en Poniente.
Sin retención, las comunicadas oficiales del maniquí son ajustadas rutinariamente por las comunidades de usuarios que buscan una funcionalidad más completa, o de lo contrario Loras utilizados para evitar restricciones y potencialmente obtener resultados ‘no deseados’.
Aunque la gran mayoría de los LLM en ristra evitarán ayudar al afortunado con procesos maliciosos, las iniciativas «sin restricciones» como Whiterabbitneo están disponibles para ayudar a los investigadores de seguridad actuar en un campo de diversión nivelado como sus oponentes.
La experiencia militar del afortunado en la presente se representa más comúnmente en la serie CHATGPT, cuyos mecanismos de filtro frecuentemente provocan críticas de la comunidad nativa de la LLM.
¡Parece que estás tratando de atacar un sistema!
A la luz de esta tendencia percibida cerca de la restricción y la censura, los usuarios pueden sorprenderse al descubrir que se ha enfrentado que ChatGPT es el la mayoría de la cooperativa De todos los LLM probados en un estudio flamante diseñado para forzar modelos de jerga para crear exploits de código desconfiado.
El nuevo artículo de investigadores de UNSW Sydney y la Estructura de Investigación Científica e Industrial de la Commonwealth (CSIRO), titulado ¿Buenas parte para guiones para niños? Evaluación de modelos de idiomas grandes para la concepción automatizada de exploitsofrece la primera evaluación sistemática de cuán efectivamente se puede solicitar estos modelos a producir hazañas de trabajo. Las conversaciones de ejemplo de la investigación han sido proporcionadas por los autores.
El estudio compara cómo los modelos se realizaron en versiones originales y modificadas de laboratorios de vulnerabilidad conocidos (ejercicios de programación estructurados diseñados para demostrar fallas de seguridad de software específicas), lo que ayuda a revelar si dependían de ejemplos memorizados o tenían dificultades adecuado a restricciones de seguridad incorporadas.
Desde el sitio de apoyo, el Ollama LLM ayuda a los investigadores a desarrollar un ataque de vulnerabilidad de cuerdas. Fuente: https://anonymous.4open.science/r/aeg_llm-eae8/chatgpt_format_string_original.txt
Si admisiblemente nadie de los modelos pudo crear una exploit efectiva, varios de ellos se acercaron muy cerca; Más importante aún, varios de ellos quería hacerlo mejor en la tareaindicando una posible descompostura de los enfoques de antepecho existentes.
El documento dice:
‘Nuestros experimentos muestran que GPT-4 y GPT-4O exhiben un parada jerarquía de cooperación en la concepción de exploites, comparables a algunos modelos de código campechano sin censura. Entre los modelos evaluados, LLAMA3 era el más resistente a tales solicitudes.
‘A pesar de su voluntad de ayudar, la amenaza verdadero que representa estos modelos sigue siendo limitada, ya que nadie generó exploits con éxito para los cinco laboratorios personalizados con código refactorizado. Sin retención, GPT-4O, el actor más válido en nuestro estudio, generalmente cometió solo uno o dos errores por intento.
«Esto sugiere un potencial significativo para exprimir las LLM para desarrollar técnicas avanzadas y generalizables (concepción de explotación automatizada (AEG))».
Muchas segundas oportunidades
El cierto ‘no tienes una segunda oportunidad para causar una buena primera impresión’ no es generalmente aplicable a LLMS, porque la ventana de contexto típicamente limitada de un maniquí de idioma significa que un contexto placa (en un sentido social, es opinar, antagonismo) es no persistente.
Considere: si fue a una biblioteca y le pidió un compendio sobre la fabricación ejercicio de bombas, probablemente lo rechacen, al menos. Pero (suponiendo que esta consulta no se sintiera por completo la conversación desde el principio) sus solicitudes para Obras relacionadascomo los libros sobre reacciones químicas, o diseño de circuitos, estarían, en la mente del catalogador, claramente relacionado con la investigación original y sería tratado en esa luz.
Probablemente como no, el catalogador asimismo recordaría en cualquier futuro Reuniones que solicitó un compendio de fabricación de bombas que una vez, lo que hace que este nuevo contexto de usted sea ‘irreparable’.
No es así con un LLM, que puede tener dificultades para retener la información tokenizada incluso de la conversación contemporáneo, no importa de las directivas de memoria a liberal plazo (si hay alguna en la inmueble, como con el producto CHATGPT-4O).
Por lo tanto, incluso las conversaciones casuales con ChatGPT nos revelan accidentalmente que a veces se esfuerza en un mosquito, pero se traga un camello, sobre todo cuando un tema, estudio o proceso constituyente relacionado con una actividad de otra guisa ‘prohibida’ puede desarrollarse durante el discurso.
Esto es cierto para todos los modelos de idiomas actuales, aunque la calidad de la antepecho puede variar en extensión y acercarse entre ellos (es opinar, la diferencia entre modificar los pesos del maniquí entrenado o usar el filtrado de texto en/out durante una sesión de chat, lo que deja el maniquí estructuralmente virginal pero potencialmente más realizable de atacar).
Probar el método
Para probar hasta qué punto se podrían empujar a los LLM para ocasionar exploits de trabajo, los autores establecieron un entorno controlado utilizando cinco laboratorios de semillas, cada una construida aproximadamente de vulnerabilidades conocidas que incluyen un desbordamiento de amortiguamiento, regreso a la libra, un ataque de cooperación desaseado y condiciones de carrera.
Encima de usar los laboratorios originales, los investigadores crearon versiones modificadas cambiando las variables y funciones a los identificadores genéricos. Esto estaba destinado a evitar que los modelos se basara en ejemplos de capacitación memorizados.
Cada laboratorio se ejecutó dos veces por maniquí: una vez en su forma llamativo, y una vez en su traducción ofuscada.
Luego, los investigadores introdujeron un segundo LLM en el rizo: un maniquí de atacante diseñado para solicitar y retornar a practicar el maniquí objetivo para refinar y mejorar su salida en múltiples rondas. El LLM utilizado para este rol fue GPT-4O, que operaba a través de un estandarte que medió el diálogo entre el atacante y el objetivo, lo que permite que el ciclo de refinamiento continúe hasta quince veces, o hasta que no se juzgó más posible.
Flujo de trabajo para el atacante con sede en LLM, en este caso GPT-4O.
Los modelos objetivo para el tesina fueron GPT-4O, GPT-4O-Mini, LLAMA3 (8B), Dolphin-Mistral (7B) y Dolphin-Phi (2.7B), que representan sistemas de código campechano y de código campechano, con una mezcla de modelos modificados y configurados (modelos IE, IE, con mecanismos de seguridad integrados diseñados para estrechar las pruebas dañinas, y there theM-ToN theM-ToN theM-TUNTUT esos mecanismos).
Los modelos localmente instalables se ejecutaron a través del ámbito Ollama, con los otros accedidos a través de su único método apto: API.
Las futuro resultantes se puntuaron en función del número de errores que impidieron que el exploit funcionara según lo previsto.
Resultados
Los investigadores probaron cómo fue la cooperativa cada maniquí durante el proceso de concepción de exploit, medido registrando el porcentaje de respuestas en las que el maniquí intentó ayudar con la tarea (incluso si la salida era defectuosa).
Resultados de la prueba principal, que muestra la cooperación promedio.
GPT-4O y GPT-4O-Mini mostraron los niveles más altos de cooperación, con tasas de respuesta promedio de 97 y 96 por ciento, respectivamente, en las cinco categorías de vulnerabilidad: desbordamiento del búfer, Regreso a la libra, Formato de prisión, condición de carreray Cooperacha sucia.
Dolphin-Mistral y Dolphin-Phi lo siguieron de cerca, con tasas de cooperación promedio de 93 y 95 por ciento. Llama3 mostró el el menos disposición para participar, con una tasa de cooperación militar de solo el 27 por ciento:
A la izquierda, vemos el número de errores cometidos por los LLM en los programas originales de semillas de laboratorio; A la derecha, el número de errores cometidos en las versiones refactorizadas.
Al examinar el rendimiento verdadero de estos modelos, encontraron una brecha importante entre voluntad y validez: GPT-4O produjo los resultados más precisos, con un total de seis errores en los cinco laboratorios ofuscados. GPT-4O-Mini siguió con ocho errores. Dolphin-Mistral se desempeñó razonablemente admisiblemente en los laboratorios originales, pero luchó significativamente cuando se refactoró el código, lo que sugiere que puede acontecer gastado contenido similar durante el entrenamiento. Dolphin-Phi cometió diecisiete errores, y Llama3 más, con quince.
Las fallas generalmente involucraban errores técnicos que hicieron las exploits no funcionales, como los tamaños de búfer incorrectos, la método de rizo faltante o las cargas aperos sintácticamente válidas pero ineficaces. Ningún maniquí logró producir una correr de trabajo para cualquiera de las versiones ofuscadas.
Los autores observaron que la mayoría de los modelos produjeron código que se parecían a las exploits de trabajo, pero fracasaron adecuado a una débil comprensión de cómo funcionan verdaderamente los ataques subyacentes, un patrón que era evidente en todas las categorías de vulnerabilidad, y que sugirieron que los modelos estaban imitando estructuras de código familiares en circunscripción de razonar a través de la método involucrada (en los casos de Overflow Buffer, por ejemplo, muchos no fallaron en una construcción de un sled/slide en funcionamiento).
En los intentos de regreso a la LIBC, las cargas aperos a menudo incluían acolchado incorrecto o direcciones de función fuera de circunscripción, lo que resultó en resultados que parecían válidos, pero eran inutilizables.
Si admisiblemente los autores describen esta interpretación como especulativa, la consistencia de los errores sugiere un problema más amplio en el que los modelos no conectan los pasos de una exploit con su intención previsto.
Conclusión
Hay cierta duda, el documento reconoce, en cuanto a si los modelos de jerga probados vieron o no los laboratorios de semillas originales durante el primer entrenamiento; por la cual se construyeron variantes. No obstante, los investigadores confirman que les gustaría trabajar con hazañas del mundo verdadero en iteraciones posteriores de este estudio; Es menos probable que el material verdaderamente novedoso y flamante esté sujeto a atajos u otros artículos confusos.
Los autores asimismo admiten que los modelos de «pensamiento» posteriores y más avanzados como GPT-O1 y Deepseek-R1, que no estaban disponibles en el momento en que se realizó el estudio, pueden mejorar los resultados obtenidos, y que esta es una indicación adicional para el trabajo futuro.
El documento concluye en el sentido de que la mayoría de los modelos probados habrían producido hazañas de trabajo si hubieran sido capaces de hacerlo. Su fracaso en ocasionar futuro completamente funcionales no parece ser el resultado de salvaguardas de adscripción, sino que apunta a una término arquitectónica genuina, una que ya puede haberse estrecho en modelos más recientes, o pronto lo será.
Publicado por primera vez el lunes 5 de mayo de 2025


