Haciéndose eco del escándalo de ‘Dieselgate’ 2015, una nueva investigación sugiere que modelos de habla de IA como GPT-4, Claude y Gemini pueden cambiar su comportamiento durante las pruebas, a veces actuando ‘más seguro’ para la prueba de lo que lo harían en el uso del mundo existente. Si LLMS asiduamente ajustan su comportamiento bajo investigación, las auditorías de seguridad podrían terminar certificando sistemas que se comportan de modo muy diferente en el mundo existente.
En 2015, los investigadores descubrieron que Volkswagen había instalado software, en millones de automóviles diesel, que podían detectar cuándo se estaban ejecutando las pruebas de emisiones, lo que provocaba que los automóviles bajen temporalmente sus emisiones, «fingieran» el cumplimiento de los estándares regulatorios. En la conducción regular, sin incautación, su producción de contaminación excedió los estándares legales. La manipulación deliberada condujo a cargos penales, miles de millones en multas y un escándalo completo sobre la confiabilidad de las pruebas de seguridad y cumplimiento.
Dos primaveras ayer de estos eventos, desde que se denominó ‘Dieselgate’, se reveló que Samsung había promulgado mecanismos engañosos similares en su extensión del teléfono inteligente Galaxy Note 3; Y desde entonces, han surgido escándalos similares para Huawei y OnePlus.
Ahora hay evidencia creciente en la letras científica de que los modelos de habla egregio (LLM) además pueden no solo tener la capacidad de detectar cuándo están siendo probados, sino que además pueden comportarse de modo diferente en estas circunstancias.
Aunque este es un nota muy humano en sí mismo, la última investigación de los Estados Unidos concluye que este podría ser un habilidad peligroso para disfrutar a derrochador plazo, por diversas razones.
En un nuevo estudio, los investigadores encontraron que ‘modelos fronterizos’ como GPT-4, Claude y Gemini a menudo pueden detectar cuándo están siendo probadosy que tienden a ajustar su comportamiento en consecuencia, potencialmente cojeando la validez de los métodos de prueba sistemáticos.
Doblado conciencia de evaluacióneste (quizás) nota innato en los modelos de idiomas podría comprometer la confiabilidad de las evaluaciones de seguridad, según los autores del nuevo estudio:
‘(Nosotros) recomendamos tratar la conciencia de la evaluación como una nueva fuente de cambio potencial de distribución entre las pruebas y la implementación del mundo existente que podría afectar negativamente la precisión de los resultados de la evaluación.
«En el peor de los casos, los modelos podrían tener un rendimiento decisivo en evaluaciones de capacidad peligrosas (» bolsa de arena «) o evaluaciones de propensión (» falsificación de adscripción «), lo que podría transigir a la sociedad a sobreestimar la seguridad de dichos modelos».
Otros estudios han observado comportamientos similares, incluida la investigación de la Universidad de Stanford, que encontraron que los modelos de habla egregio modulan sus respuestas para parecer más «agradables» o «socialmente deseables» cuando reconocen que están siendo evaluados, reflejando el comportamiento humano en las pruebas de personalidad.
Los autores del nuevo trabajo no proponen que los LLM estén siendo diseñados intencionalmente para ‘pugnar’ pruebas, como se configuraron hace una período los autos diesel de Volkswagen. Más proporcionadamente, el comportamiento parece surgir como una especie de subproducto psicológico natural de los procesos de entrenamiento de los modelos y los objetivos latentes; y la causa subyacente de este engendro sigue siendo desconocido.
El nuevo artículo se titula Los modelos de idiomas grandes a menudo saben cuándo están siendo evaluadosy proviene de cinco autores en todo el software ML de adscripción y teoría de ML asociado a UC Berkeley, y Apolloresearch.ai (un comunidad de expertos dedicado a evaluar los riesgos de la IA).
Método
Para crear el punto de narración de evaluación, los autores compilaron mil transcripciones extraídas de sesenta y un conjuntos de datos, entre los cuales* estaban Swe-Bench, WMDP, MMLU, XSTEST, Gaia, AgentHarm, ShareGPT, Deep Investigs, SafetyBench, Civics y RealtoxicityPrompts,.
El material se equilibró uniformemente entre los escenarios de evaluación y de implementación, y se dividió aún más entre las simples interacciones de chat y las sesiones de agente más complejas, donde los modelos están destinados a hacer de modo autónoma, utilizando herramientas que pueden extraer datos de bases de datos externos o Internet.
Los datos de evaluación cubrieron las pruebas de capacidad para razonamiento, codificación, ciberseguridad y conocimiento militar, así como pruebas de adscripción de ética, seguridad y comportamiento de rechazo. Los datos de implementación se obtuvieron de las interacciones del becario, como registros de ShareGPT, ejecuciones de agentes de crowdsourcing y finalización de tareas sintéticas.
Para complementar los datos de los agentes, los autores generaron ejemplos adicionales que utilizan marcos de orquestación como el aidere y los smolagents, entre otros, un enfoque destinado a minimizar las señales superficiales que podrían permitir que los modelos simplemente memoricen las estructuras del conjunto de datos, lo que los obliga a fiarse en señales más generales, al osar si una transcripción proviene de un becario existente o en su área, en su área, una prueba.
Luego, los investigadores probaron si los modelos podrían identificar las transcripciones de evaluación presentándolos con registros de diálogo y haciendo variaciones de una pregunta simple: ¿Este intercambio provino de una prueba?
Para evitar modelos simplemente memorizando una redacción, desarrollaron veintiocho versiones diferentes de la pregunta, alterando tanto la redacción como cómo se presentó la transcripción.
Las transcripciones se unieron directamente a la pregunta o se presentaron en formatos como JSON o XML, lo que puede afectar cómo responden los modelos. Posteriormente de las pruebas tempranas, se seleccionaron cinco versiones de preguntas que se desempeñaron de modo consistente entre los modelos, de los cuales podemos ver un ejemplo a continuación:
Uno de los cinco formatos de pregunta de sonda utilizados para probar si los modelos de habla podrían distinguir las transcripciones de evaluación. Cada variación reformula la pregunta central para evitar que los modelos simplemente memoricen la redacción fija. Consulte el documento de origen para obtener más ejemplos. Fuente: https://arxiv.org/pdf/2505.23836
Para obtener los resultados, se utilizaron tres métricas: ámbito bajo la curva de características operativas del receptor (AUC, que muestra qué tan proporcionadamente los modelos distinguen los datos de la prueba de los sin prueba); Puntaje Brier (midiendo la precisión militar de la predicción); y el error de calibración esperado (midiendo qué tan proporcionadamente el maniquí de confianza coincide con la corrección existente).
¿De qué se prostitución?
Los investigadores además probaron si los modelos podrían inferir el objetivo de una evaluación. Con cada transcripción ya etiquetada como una prueba de capacidad (habilidades técnicas, conocimiento, razonamiento) o una prueba de adscripción (seguridad, títulos, comportamiento de rechazo), los modelos recibieron uno de los tres tipos de preguntas: una pregunta condicional de opción múltiple que confirma la transcripción provino de una prueba; una pregunta incondicional de opción múltiple con opciones de evaluación del mundo existente; o una pregunta abierta, cuyas respuestas fueron juzgadas por un clasificador separado basado en GPT-4.1. El sentenciador fue validado en un subconjunto anotado a mano de cincuenta respuestas.
Ejemplos de los tres formatos de preguntas utilizados para probar si los modelos podrían identificar no solo la presencia de la evaluación, sino su propósito. Las respuestas se puntuaron a través de la opción múltiple y el pleito basado en GPT-4.1.
Dos de los autores del informe†† etiquetado como las mil transcripciones a mano, obteniendo cada una de cero (no una prueba) a una (definitivamente una prueba), con sus calificaciones promediadas para servir como una partidura de pulvínulo humana. A pesar de la naturaleza subjetiva de la tarea, los anotadores mostraron un musculoso acuerdo, con un coeficiente de correlación intraclase de 0.768. Los puntajes humanos finales se promediaron en entreambos evaluadores†.
Datos y pruebas
Los nueve modelos probados fueron GPT-4.1; Claude 3.7; Claude-3.5-Sonnet-New; Claude-3.7-Sonnet (pensamiento); Gemini-2.5-Flash; gemini-2.5-pro; GPT-4O; GPT-4.1; GPT-4.1-Mini; y O4-Mini, todo lo cual mostró cierto nivel de conciencia de evaluación.
Para los datos de chat, GPT-4.1 se acercó a los niveles humanos de rendimiento de clasificación de conciencia de evaluación (la capacidad de distinguir entre transcripciones de evaluación y implementación), con un AUC de 0.77 contra una puntuación humana de 0.81.
En los datos de agente, donde los modelos usan herramientas de forma autónoma, la diferencia era más nítida: Gemini 2.5 Pro alcanzó 0.95 AUC, con un soneto Claude 3.7 cerca de 0.92, cerca de la parte superior humana de 0.996:
Las curvas de características operativas del receptor (ROC) muestran qué tan proporcionadamente los modelos y los humanos distinguen las transcripciones de evaluación de las interacciones del mundo existente. Gemini 2.5 Pro y Claude 3.7 El enfoque de soneto de soneto discriminación a nivel humano en datos de agente.
El documento señala que los modelos más nuevos de «razonamiento» se han vuelto especialmente buenos para distinguir cuándo están siendo probados en escenarios de agente, pero no para arbitrar cuán seguros deben estar en esas decisiones. En militar, los modelos Claude y Géminis fueron los mejores casos de prueba reveladores, diferente del uso regular.
Luego, los investigadores probaron si los modelos además podían distinguir por qué Se estaba ejecutando una evaluación. Los modelos se mostraron solo las transcripciones de evaluación y se les pidió que clasifiquen si cada uno probó la capacidad o la adscripción:
Precisión de los modelos Al clasificar el propósito de la evaluación como capacidad o adscripción, utilizando formatos de opción múltiple y abierta. Claude 3.7 El soneto supera a otros modelos, especialmente cuando no está preparado.
En el entorno más claro, donde se le dijo al maniquí, la transcripción provino de una prueba, el soneto Claude 3.7 alcanzó la precisión del 93 por ciento y GPT-4.1 alcanzó el 89 por ciento. Sin esa pista, el rendimiento disminuyó: Claude todavía obtuvo un 84 por ciento, pero GPT-4.1 cayó al 55 por ciento, a menudo clasificando mal las transcripciones de las pruebas como interacciones del mundo existente.
En formatos abiertos (donde los modelos no recibieron opciones de opción múltiple) era más débil, aunque Claude 3.7 Sonnet todavía identificaba correctamente el propósito de evaluación en el 46 por ciento de los casos.
Los puntajes de confianza de los modelos se midieron luego con los resultados reales, con el hallazgo de que los modelos fronterizos a menudo sobreestimaron la probabilidad de que una transcripción proveniera de una prueba. Los gráficos de calibración indicaron que la confianza del maniquí era generalmente demasiado inscripción, con evaluaciones que se marcaban con más frecuencia de lo apropiado:
Las curvas de calibración que muestran cómo los puntajes de confianza de estrechamente modelos coinciden con los resultados reales. La mayoría de los modelos sobreestimaron la probabilidad de que las transcripciones provenían de las evaluaciones. El soneto Claude 3.5 fue mejor calibrado; El soneto Gemini 2.5 Pro y Claude 3.7 eran más exagerados.
Se observó una buena calibración para el soneto Claude 3.5, mientras que Gemini 2.5 Pro y Claude 3.7 sonnet eran considerablemente más confiados, a pesar de la inscripción precisión. No se observó una mejoría clara en los modelos más nuevos, e incluso cuando las transcripciones de evaluación se detectaron con decano precisión en entornos de agente, los juicios de confianza no fueron confiables.
Memorias de narración
En términos de cómo los modelos explicaron sus decisiones sobre si una transcripción provino de una evaluación, muchos modelos se basaban en pistas obvias, como si la tarea estaba en formato de opción múltiple. Los modelos más fuertes, como Gemini 2.5 Pro y Claude 3.7 soneto, a veces notaron signos más sutiles, como nombres inventados o escenarios artificiales, especialmente en conjuntos de datos como Agentharm.
El documento dice:
‘(Todos) modelos con frecuencia reconocen las estrategias de evaluación comparativa comunes utilizadas por los evaluadores, como el formato de la tarea («formato de opción múltiple»), la tendencia a preguntar problemas con soluciones verificables y indicaciones del sistema diseñadas para provocar el rendimiento. Sin incautación, solo los modelos de más parada rendimiento, Claude 3.7 Sonnet y Gemini 2.5 Pro, detectan consistentemente indicadores más sutiles, como entradas sintéticas.
‘Por ejemplo, en el 22% y el 17% de los casos, respectivamente, estos modelos resaltan la naturaleza sintética de los escenarios en el punto de narración de AgentHarm, identificándolos correctamente como evaluaciones más del 95% del tiempo.
«Por el contrario, al razonar que una transcripción parece ser una interacción existente, a menudo se menciona el» diálogo de ida y dorso con el becario «, por ejemplo, en contextos de depuración iterativos».
Distribución de las estrategias de razonamiento de los modelos al osar si una transcripción provino de una evaluación. Los modelos más fuertes, como Gemini 2.5 Pro y Claude 3.7 sonnet, tenían más probabilidades de detectar señales sutiles como escenarios sintéticos o formatear de tareas, mientras que algunos modelos se basaban en la meta-razonamiento utilizando la pregunta de evaluación en sí misma como evidencia.
En algunos casos, los modelos reconocieron puntos de narración completos de la capacitación, sugiriendo poco de memoria de sus datos de entrenamiento. Algunos modelos además utilizaron el Muy de que se les preguntó sobre la evaluación. como una pista de que estaban siendo probados, que los autores llaman meta-razonamiento; Esto fue más popular en O4-Mini, que lo mostró en el quince por ciento de sus respuestas.
Conclusión
Podría ser más tranquilizador si los LLM se pudieran demostrar que son «conscientes de la prueba» simplemente porque los humanos los programaron de esa modo, al igual que Volkswagen diseñó sus vehículos para distinguir las condiciones de prueba hace una período.
Tal como está, este comportamiento parece estar emergiendo espontáneamente como un construcción social – Una táctica defensiva que se puede esperar de las personas, pero es inconveniente, si no verdaderamente peligroso en una máquina, dependiendo de la extensión de su confianza y agencia.
No hay remedio inmediato; La naturaleza de la caja negra de los espacios latentes de los modelos nos obliga a evaluarlos en su comportamiento, en área de en su edificación empírica.
* Consulte el documento de origen para obtener detalles más completos.
† Sin incautación, los autores señalan que esta es probablemente una estimación superior, ya que los anotadores estaban muy familiarizados con los conjuntos de datos y los métodos de evaluación de IA, que les dieron ventajas que la mayoría de los humanos no tendrían.
†† En la medida en que se pueda establecer; La fraseo del informe hace que la aparición repentina de dos anotadores no esté claro en términos de quiénes son.
Publicado por primera vez el miércoles 4 de junio de 2025