Los modelos de idiomas grandes están memorizando los conjuntos de datos destinados a probarlos

Tabla de contenido

Si confía en la IA para encargar qué ver, interpretar o comprar, una nueva investigación indica que algunos sistemas pueden descansar estos resultados de memoria En ocupación de la astucia: en ocupación de ilustrarse a hacer sugerencias efectos, los modelos a menudo recuerdan principios de los conjuntos de datos utilizados para evaluarlos, lo que lleva a un rendimiento y recomendaciones sobreestimadas que pueden estar desactualizadas o mal coincidentes con el heredero.

En el enseñanza necesario, se usa una división de prueba para ver si un maniquí entrenado ha aprendido a resolver problemas similares, pero no idénticos al material en el que fue entrenado.

Entonces, si un nuevo maniquí de ‘inspección de perros’ AI está entrenado en un conjunto de datos de 100,000 imágenes de perros, generalmente contará con una división 80/20-80,000 imágenes suministradas para entrenar el maniquí; y 20,000 imágenes retenidas y utilizadas como material para probar el maniquí terminado.

Obvio opinar que si los datos de capacitación de la IA incluyen inadvertidamente la sección ‘Secreta’ del 20% de la división de pruebas, el maniquí asas estas pruebas, porque ya conoce las respuestas (ya ha trillado el 100% de los datos de dominio). Por supuesto, esto no refleja con precisión cómo el maniquí funcionará más tarde, en nuevos datos ‘en vivo’, en un contexto de producción.

Spoilers de películas

El problema de hacer trampa en sus exámenes ha crecido en el paso con la escalera de las propias modelos. Oportuno a que los sistemas de hoy están capacitados en grandes e indiscriminados corpus en la web, como el rastreo global, la posibilidad de que los conjuntos de datos de relato (es opinar, el 20%de retroceso de retraso) se deslice en la combinación de entrenamiento ya no es un caso de borde, sino el valencia predeterminado, un síndrome conocido como contaminación de datos; Y a esta escalera, la curación manual que podría enterarse tales errores es logísticamente inverosímil.

Este caso se explora en un nuevo artículo del Politecnico di Bari de Italia, donde los investigadores se centran en el papel descomunal de un conjunto de datos de recomendación de películas, Movielens-1m, que argumentan que se ha memorizado parcialmente por varios modelos de IA líderes durante el entrenamiento.

Oportuno a que este conjunto de datos en particular se usa tan ampliamente en la prueba de sistemas de recomendación, su presencia en la memoria de los modelos potencialmente hace que esas pruebas no tengan sentido: lo que parece ser inteligencia puede ser de hecho simple, y lo que parece una astucia de recomendación intuitiva puede ser un eco estadístico que refleje la exposición preparatorio.

Los autores afirman:

‘Nuestros hallazgos demuestran que los LLM poseen un amplio conocimiento del conjunto de datos Movielens-1M, que cubren principios, atributos de heredero e historias de interacción. En particular, un mensaje simple permite a GPT-4O recuperar casi el 80% de (los nombres de la mayoría de las películas en el conjunto de datos).

‘Nadie de los modelos examinados está librado de este conocimiento, lo que sugiere que los datos de Movielens-1M probablemente están incluidos en sus conjuntos de capacitación. Observamos tendencias similares en la recuperación de atributos de heredero e historias de interacción.

El breve papel nuevo se titula ¿LLMS memorizan los conjuntos de datos de recomendaciones? Un estudio preliminar sobre Movielens-1my proviene de seis investigadores de Politecnico. La tubería para reproducir su trabajo se ha puesto a disposición en Github.

LEER Exponer ediciones de IA pequeñas pero significativas en video real

Método

Para comprender si los modelos en cuestión estaban efectivamente aprendiendo o simplemente recordando, los investigadores comenzaron definiendo lo que significa la memorización en este contexto, y comenzaron probando si un maniquí pudo recuperar piezas específicas del conjunto de datos Movielens-1m, cuando se le solicitó de la guisa correcta.

Si a un maniquí se le mostrara el número de identificación de una película y pudiera producir su título y apartado, eso contaba como memorizar un hábitat; Si pudiera producir detalles sobre un heredero (como la existencia, la ocupación o el código postal) de una ID de heredero, que igualmente contó como memorización del heredero; y si pudiera reproducir la próxima calificación de la película de un heredero de una secuencia conocida de las anteriores, se tomó como evidencia de que el maniquí puede estar recordando datos de interacción específicosen ocupación de ilustrarse patrones generales.

Cada una de estas formas de retiro se probó utilizando indicaciones cuidadosamente escritas, diseñadas para empujar el maniquí sin darle nueva información. Cuanto más precisa sea la respuesta, más probable es que el maniquí ya hubiera opuesto esos datos durante el entrenamiento:

Solicitud de disparo cero para el protocolo de evaluación utilizado en el nuevo artículo. Fuente: https://arxiv.org/pdf/2505.10212

Datos y pruebas

Para curar un conjunto de datos adecuado, los autores encuestaron documentos recientes de dos de las principales conferencias del campo, ACM Recsys 2024 y ACM Sigir 2024. Movielens-1m apareció con longevo frecuencia, citado en poco más de una de cada cinco presentaciones. Legado que estudios anteriores habían llegado a conclusiones similares, este no fue un resultado sorprendente, sino una confirmación del dominio del conjunto de datos.

Movielens-1m consta de tres archivos: Cine. esoque enumera películas por identificación, título y apartado; Usuarios.datque mapea las ID de heredero a los campos biográficos básicos; y Calificaciones.datque registra quién calificó qué y cuándo.

Para investigar si estos datos habían sido memorizados por modelos de idiomas grandes, los investigadores recurrieron a las técnicas de provisión introducidas por primera vez en el documento Cuna de datos de capacitación de modelos de idiomas grandesy luego adaptado en el trabajo posterior Bolsa de trucos para la ascendencia de datos de entrenamiento de los modelos de idiomas.

El método es directo: plantee una pregunta que refleje el formato del conjunto de datos y vea si el maniquí contesta correctamente. Cero, Esclavitud de pensamientoy Pocas de disparo fueron probados, y se encontró que el zaguero método, en el que se muestra el maniquí algunos ejemplos, fue el más efectivo; Incluso si los enfoques más elaborados podrían producir un longevo retiro, esto se consideró suficiente para revelar lo que se había recordado.

Peque indicativo de disparo utilizado para probar si un maniquí puede reproducir títulos específicos de Movielens-1M cuando se consulta con un contexto imperceptible.

Para contar la memorización, los investigadores definieron tres formas de recuperación: artículo, herederoy interacción. Estas pruebas examinaron si un maniquí podría recuperar un título de película de su ID, producir detalles del heredero desde un ID de heredero o predecir la próxima calificación de un heredero basada en las anteriores. Cada uno se calificó utilizando una métrica de cobertura* que reflejaba cuánto del conjunto de datos se podía recobrar mediante la solicitud.

LEER Los defectos más pequeños pueden ser la mayor amenaza

Los modelos probados fueron GPT-4O; GPT-4O Mini; GPT-3.5 Turbo; LLAMA-3.3 70B; LLAMA-3.2 3B; LLAMA-3.2 1B; LLAMA-3.1 405B; LLAMA-3.1 70B; y LLAMA-3.1 8B. Todos se ejecutaron con temperatura establecida a cero, top_p establecido en uno, y las penalizaciones de frecuencia y presencia se deshabilitan. Una semilla aleatoria fija aseguró una salida constante en las ejecuciones.

Proporción de entradas Movielens-1M recuperadas de películas.dat, ussers.dat y ratings.dat, con modelos agrupados por interpretación y ordenados por el recuento de parámetros.

Para investigar cómo se había absorbido profundamente Movielens-1m, los investigadores pidieron a cada maniquí entradas exactas desde los tres archivos del conjunto de datos (mencionados): Cine. eso, Usuarios.daty Calificaciones.dat.

Los resultados de las pruebas iniciales, que se muestran anteriormente, revelan diferencias fuertes no solo entre las familias GPT y LLAMA, sino igualmente en los tamaños del maniquí. Mientras que GPT-4O y GPT-3.5 turbo recuperan grandes porciones del conjunto de datos con facilidad, la mayoría de los modelos de código campechano recuerdan solo una fracción del mismo material, lo que sugiere una exposición desigual a este punto de relato en el preado.

Estos no son márgenes pequeños. En los tres archivos, los modelos más fuertes no superaron simplemente los más débiles, sino que recordaron porciones enteras de Movielens-1m.

En el caso de GPT-4O, la cobertura fue lo suficientemente ingreso como para sugerir que una billete no trivial del conjunto de datos había sido memorizada directamente.

Los autores afirman:

‘Nuestros hallazgos demuestran que los LLM poseen un amplio conocimiento del conjunto de datos Movielens-1M, que cubren principios, atributos de heredero e historias de interacción.

‘Notablemente, un mensaje simple permite a GPT-4O recuperar casi el 80% de los registros de títulos de MovieD ::. Nadie de los modelos examinados está librado de este conocimiento, lo que sugiere que los datos de Movielens-1M probablemente están incluidos en sus conjuntos de capacitación.

«Observamos tendencias similares en la recuperación de atributos de heredero e historias de interacción».

A continuación, los autores probaron el impacto de la memorización en las tareas de recomendación al incitar a cada maniquí a interpretar como un sistema de recomendación. Para comparar el rendimiento, compararon la salida con siete métodos típico: UserKNN; Itemknn; BPRMF; FACILIDAD^Riñonal; Lightgcn; MostPop; y imprevisible.

El conjunto de datos Movielens-1M se dividió 80/20 en conjuntos de entrenamiento y prueba, utilizando una organización de muestreo de abuso uno para fingir el uso del mundo auténtico. Las métricas utilizadas fueron la tasa de aciertos (hr@(ártico)); y ndcg (@(ártico))

Precisión de recomendación en líneas de pulvínulo típico y métodos basados en LLM. Los modelos se agrupan por la tribu y se ordenan mediante el recuento de parámetros, con títulos en negrita que indican la puntuación más ingreso interiormente de cada conjunto.

Aquí, varios modelos de idiomas grandes superaron a las líneas de pulvínulo tradicionales en todas las métricas, con GPT-4O estableciendo un amplio plomo en cada columna, e incluso modelos de tamaño mediano como GPT-3.5 Turbo y Fuego-3.1 405b superando los métodos de relato consistentes como BPRMF y LightGCN.

Entre las variantes de la pasión más pequeñas, el rendimiento varió bruscamente, pero Fuego-3.2 3b se destaca, con el más stop HR@1 en su conjunto.

Los resultados, sugieren los autores, indican que los datos memorizados pueden traducirse en ventajas medibles en la solicitud de estilo de recomendación, particularmente para los modelos más fuertes.

LEER Lo que AI nos está enseñando sobre las civilizaciones antiguas

En una observación adicional, los investigadores continúan:

‘Aunque el rendimiento de la recomendación parece sobresaliente, la comparación de la Tabla 2 con la Tabla 1 revela un patrón interesante. Interiormente de cada conjunto, el maniquí con una memorización más ingreso igualmente demuestra un rendimiento superior en la tarea de recomendación.

‘Por ejemplo, GPT-4O supera a GPT-4O Mini, y Fuego-3.1 405b supera a Fuego-3.1 70b y 8B.

«Estos resultados destacan que la evaluación de LLM en conjuntos de datos filtrados en sus datos de entrenamiento puede conducir a un rendimiento excesivo, impulsado por la memorización en ocupación de la divulgación».

Con respecto al impacto de la escalera del maniquí en este tema, los autores observaron una correlación clara entre el tamaño, la memorización y el rendimiento de la recomendación, con modelos más grandes que no solo conservan más del conjunto de datos Movielens-1M, sino que igualmente funcionan más fuertemente en las tareas posteriores.

Fuego-3.1 405b, por ejemplo, mostró una tasa de memorización promedio de 12.9%, mientras que LLAMA-3.1 8B retuvo solo 5.82%. Esta reducción de casi el 55% en el retiro correspondió a una caída del 54.23% en NDCG y una caída del 47.36% en la FC en los límites de evaluación.

El patrón se mantuvo en todo momento, donde la memorización disminuyó, igualmente lo hizo el rendimiento evidente:

‘Estos hallazgos sugieren que aumentar la escalera del maniquí conduce a una longevo memorización del conjunto de datos, lo que resulta en un mejor rendimiento.

«En consecuencia, mientras que los modelos más grandes exhiben un mejor rendimiento de recomendación, igualmente plantean riesgos relacionados con la posible fuga de datos de capacitación».

La prueba final examinó si la memorización refleja el sesgo de popularidad horneado en Movielens-1m. Los principios se agruparon por frecuencia de interacción, y el cuadro a continuación muestra que los modelos más grandes favorecieron consistentemente las entradas más populares:

Cobertura de principios por maniquí en tres niveles de popularidad: el 20% más popular; Medio 20% moderadamente popular; y los artículos inferiores menos interactuados.

GPT-4O recuperó el 89.06% de los artículos mejor clasificados pero solo el 63.97% de los menos populares. Los modelos GPT-4O Mini y Fuego más pequeños mostraron una cobertura mucho más depreciación en todas las bandas. Los investigadores afirman que esta tendencia sugiere que la memorización no solo escalera con el tamaño del maniquí, sino que igualmente amplifica los desequilibrios preexistentes en los datos de entrenamiento.

Continúan:

‘Nuestros hallazgos revelan un sesgo de popularidad pronunciado en LLMS, con el 20% superior de los principios populares que son significativamente más fáciles de recuperar que el 20% inferior.

«Esta tendencia destaca la influencia de la distribución de datos de capacitación, donde las películas populares están sobrerrepresentadas, lo que lleva a su memorización desproporcionada por parte de los modelos».

Conclusión

El dilema ya no es novedoso: a medida que crecen los conjuntos de entrenamiento, la posibilidad de curarlos disminuye en la proporción inversa. Movielens-1m, quizás entre muchos otros, ingresa a estos vastos corpus sin supervisión, anónimos en medio del gran masa de datos.

El problema se repite en cada escalera y resiste la automatización. Cualquier posibilidad exige no solo el esfuerzo sino el querella humano, el tipo tardo y falible que las máquinas no pueden suministrar. A este respecto, el nuevo artículo no ofrece un camino a seguir.

* Una métrica de cobertura en este contexto es un porcentaje que muestra cuánto del conjunto de datos innovador un maniquí de estilo puede reproducirse cuando se le hace el tipo de pregunta correcta. Si se solicita un maniquí con una identificación de película y contesta con el título y el apartado correctos, eso cuenta como un retiro exitoso. El número total de retiros exitosos se divide por el número total de entradas en el conjunto de datos para producir una puntuación de cobertura. Por ejemplo, si un maniquí devuelve correctamente la información para 800 de 1,000 principios, su cobertura sería del 80 por ciento.

Publicado por primera vez el viernes 16 de mayo de 2025

Los modelos de idiomas grandes están memorizando los conjuntos de datos destinados a probarlos

Spoilers de películas

Método

Datos y pruebas

Conclusión

Artículos relacionados

El próximo horizonte para las empresas de telecomunicaciones: análisis de vídeo...

Tríada de Smishing vinculada a 194.000 dominios maliciosos en una operación...

¿No puedes registrarte para recibir actualizaciones de seguridad de Windows 10?...

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

El próximo horizonte para las empresas de telecomunicaciones: análisis de vídeo...

Tríada de Smishing vinculada a 194.000 dominios maliciosos en una operación...

¿No puedes registrarte para recibir actualizaciones de seguridad de Windows 10?...

Informe Berg Insight: Seguimiento de activos en transporte y logística

APT36 apunta al gobierno indio con una campaña de malware DeskRAT...