Los defectos más pequeños pueden ser la mayor amenaza

Tabla de contenido

Las herramientas de IA conversacionales como ChatGPT y Google Gemini ahora se están utilizando para crear defagos que no intercambian caras, pero de guisa más sutil pueden reescribir toda la historia en el interior de una imagen. Al cambiar de gestos, accesorios y fondos, estas ediciones engañan tanto a los detectores de IA como a los humanos, elevando las apuestas para detectar lo que es positivo en tendencia.

En el clima flagrante, particularmente a raíz de una carta significativa, como la Ley de Take It Down, muchos de nosotros asociamos los profundos profundos y la síntesis de identidad impulsada por la IA con la pornografía no consensuada y la manipulación política, en normal, en normal, bruto distorsiones de la verdad.

Esto nos aclimatiza a esperar que las imágenes manipuladas con AI siempre buscen contenido de suspensión peligro, donde la calidad de la representación y la manipulación del contexto pueden ganar un contratiempo de credibilidad, al menos a corto plazo.

Históricamente, sin requisa, las alteraciones más sutiles a menudo han tenido un meta más siniestro y duradero, como el simulación fotográfico de última procreación que permitió a Stalin eliminar a los que se habían quedado en desgracia del disco fotográfico, como satirizado en la novelística de George Orwell Diecinueve ochenta y cuatrodonde el protagonista Winston Smith pasa sus días reescribiendo la historia y con fotos creadas, destruidas y «enmendadas».

En el futuro ejemplo, el problema con el segundo La imagen es que «no sabemos lo que no sabemos»: que el ex dirigente de la policía secreta de Stalin, Nikolai Yezhov, solía acomodarse el espacio donde ahora solo hay una barrera de seguridad:

Ahora lo ves, ahora es … vapor. La manipulación fotográfica de la era de Stalin elimina a un miembro del partido deshonrado de la historia. Fuente: Dominio manifiesto, a través de https://www.rferl.org/a/soviet-irbrushing-the-censors-who-scratched-outhistory/29361426.html

Las corrientes de este tipo, a menudo repetidas, persisten de muchas maneras; No solo culturalmente, sino en la visión por computadora en sí, lo que deriva las tendencias de temas y motivos estadísticamente dominantes en los conjuntos de datos de capacitación. Para dar un ejemplo, el hecho de que los teléfonos inteligentes hayan bajado la barrera de entrada, y macizamente Bajó el costo de la fotografía, significa que su iconografía se ha asociado ineludiblemente con muchos conceptos abstractos, incluso cuando esto no es apropiado.

Si el profundo convencional puede percibirse como un acto de «asalto», las alteraciones menores perniciosas y persistentes en los medios audiovisuales son más parecidos a la «iluminación de gas». Adicionalmente, la capacidad de este tipo de profundo que pasa desapercibido hace que sea difícil identificarse a través de sistemas de detecciones profundas de última procreación (que buscan cambios brutos). Este enfoque es más parecido al agua que se desgasta en un período sostenido, que una roca dirigida a una inicio.

Múltiple

Investigadores de Australia han hecho un intento de atracar la equivocación de atención a la «sutiles» profunda en la letras, al curar un nuevo conjunto de datos sustancial de manipulaciones de imágenes centradas en la persona que alteran el contexto, la emoción y la novelística sin cambiar la identidad central del sujeto:

Muestrado de la nueva colección, pares reales/falsos, con algunas alteraciones más sutiles que otras. Tenga en cuenta, por ejemplo, la pérdida de autoridad para la mujer asiática, desaparecido derecha, ya que la IA elimina el estetoscopio de su médico. Al mismo tiempo, la sustitución de la almohadilla del médico por el portapapeles no tiene un ángulo semántico obvio. Fuente: https://huggingface.co/datasets/parulgupta/multifakeverse_preview

Aristocrático Múltiplela colección consta de 845,826 imágenes generadas a través de modelos de jerga de visión (VLMS), a las que se puede entrar en tendencia y descargar, con permiso.

LEER Más allá de la recuperación: NVIDIA Curso de cuadros para la era de la computación generativa

Los autores afirman:

‘Este enfoque impulsado por VLM permite alteraciones semánticas y conscientes del contexto, como acciones de modificación, escenas e interacciones de objeto humano en superficie de swaps de identidad sintéticos o de bajo nivel y ediciones específicas de la región que son comunes en los conjuntos de datos existentes.

«Nuestros experimentos revelan que los modelos actuales de detección de defake de última procreación y los observadores humanos luchan por detectar estas manipulaciones sutiles pero significativas».

Los investigadores probaron tanto a los humanos como a los sistemas de detección de Deepfake en su nuevo conjunto de datos para ver qué tan admisiblemente podrían identificarse estas manipulaciones sutiles. Los participantes humanos lucharon, clasificando correctamente las imágenes como reales o falsas solo aproximadamente el 62% del tiempo, y tuvieron una dificultad aún veterano para identificar qué partes de la imagen habían sido alteradas.

Los detectores existentes de Deepfake, entrenados principalmente en conjuntos de datos de intercambio de caras más obvios, todavía se desempeñaron mal, a menudo no se registraron que cualquier manipulación había ocurrido. Incluso luego de ajustar en multifakeverse, las tasas de detección se mantuvieron bajas, exponiendo cómo los sistemas de mal estado manejan estas ediciones sutiles y narrativas.

El nuevo artículo se titula Multiverso a través de DeepFakes: el conjunto de datos multifakeverse de manipulaciones visuales y conceptuales centradas en la personay proviene de cinco investigadores de la Universidad de Monash en Melbourne y la Universidad Curtin en Perth. El código y los datos relacionados se han publicado en GitHub, por otra parte del alojamiento de la cara abrazada mencionada anteriormente.

Método

El conjunto de datos MultiFakeverse se construyó a partir de cuatro conjuntos de imágenes del mundo positivo con personas en diversas situaciones: emótico; PISC, PIPA y PIC 2.0. Comenzando con 86,952 imágenes originales, los investigadores produjeron 758,041 versiones manipuladas.

Los marcos Gemini-2.0-Flash y ChatGPT-4O se usaron para proponer seis ediciones mínimas para cada imagen: ediciones diseñadas para alterar sutilmente cómo la persona más prominente en la imagen sería percibida por un espectador.

Los modelos recibieron instrucciones de crear modificaciones que harían aparecer el sujeto ingenuo, orgulloso, apesadumbrado, inexpertoo despreocupadoo para ajustar algún factor fáctico en el interior de la cuadro. Yuxtapuesto con cada tiraje, los modelos todavía produjeron un expresión de narración Para identificar claramente el objetivo de la modificación, asegurar que el proceso de tiraje posterior pueda aplicar cambios a la persona u objeto correcto en el interior de cada imagen.

Los autores aclaran:

‘Tenga en cuenta que expresión de narración es un dominio ampliamente explorado en la comunidad, que significa una frase que puede desambiguar el objetivo en una imagen, por ejemplo, una imagen que tiene dos hombres sentados en un escritorio, uno que palabra por teléfono y el otro mirando a través de documentos, una expresión de narración adecuada de la tarde sería el hombre a la izquierda sosteniendo un pedazo de papel. ‘

Una vez que se definieron las ediciones, la manipulación de la imagen positivo se llevó a agarradera al provocar modelos en idioma de visión para aplicar los cambios especificados mientras dejaba incólume el resto de la cuadro. Los investigadores probaron tres sistemas para esta tarea: GPT-Image-1; Gemini-2.0-Flash-Image-Generation; y Icedit.

Posteriormente de crear veintidós mil imágenes de muestra, Gemini-2.0-Flash surgió como el método más consistente, produciendo ediciones que se mezclan lógicamente en la cuadro sin introducir artefactos visibles; IceDit a menudo produjo falsificaciones más obvias, con fallas notables en las regiones alteradas; y GPT-Image-1 ocasionalmente afectó partes no intencionadas de la imagen, en parte oportuno a su conformidad con relaciones de aspecto de salida fijas.

Estudio de imágenes

Cada imagen manipulada se comparó con su innovador para determinar cuánto de la imagen había sido alterada. Se calcularon las diferencias a nivel de píxel entre las dos versiones, con un pequeño ruido accidental filtrado para centrarse en ediciones significativas. En algunas imágenes, solo se afectaron las áreas pequeñas; en otros, hasta ochenta por ciento de la cuadro fue modificado.

LEER Hunyuancustom trae videos de imágenes únicas profundas, con audio y sincronización de labios

Para evaluar cuánto cambió el significado de cada imagen a la luz de estas alteraciones, se generaron subtítulos para las imágenes originales y manipuladas utilizando el maniquí de jerga de visión ShareGPT-4V.

Estos subtítulos se convirtieron en incrustaciones usando clip espléndido, lo que permite una comparación de cuán allá había divergido el contenido entre las versiones. Los cambios semánticos más fuertes se observaron en los casos en que los objetos cercanos o directamente que involucran a la persona habían sido alterados, ya que estos pequeños ajustes podrían cambiar significativamente cómo se interpretó la imagen.

Gemini-2.0-flash se usó para clasificar el tipo de manipulación aplicada a cada imagen, en función de dónde y cómo se hicieron las ediciones. Las manipulaciones se agruparon en tres categorías: a nivel de persona Las ediciones involucraron cambios en la expresión facial del sujeto, pose, inspección, ropa u otros rasgos personales; a nivel de objeto Las ediciones afectadas de los nociones conectados a la persona, como los objetos con los que sostenían o interactuaban en primer plano; y nivel de cuadro Las ediciones involucraron nociones de fondo o aspectos más amplios del entorno que no involucraron directamente a la persona.

La tubería de procreación de conjuntos de datos multifakeverse comienza con imágenes reales, donde los modelos en idioma de visión proponen ediciones narrativas dirigidas a personas, objetos o escenas. Estas instrucciones se aplican luego mediante modelos de tiraje de imágenes. El panel correcto muestra la proporción de manipulaciones a nivel de persona, a nivel de objeto y a nivel de cuadro a través del conjunto de datos. Fuente: https://arxiv.org/pdf/2506.00868

Poliedro que las imágenes individuales podrían contener múltiples tipos de ediciones a la vez, la distribución de estas categorías se asignó a través del conjunto de datos. Aproximadamente un tercio de las ediciones se dirigió solo a la persona, aproximadamente un botellín afectó solo la cuadro, y cerca de de un sexto se limitó a los objetos.

Evaluar el impacto perceptivo

Se usó Gemini-2.0-Flash para evaluar cómo las manipulaciones podrían alterar la percepción de un espectador en seis áreas: emoción, identidad personal, fuerza dinámica, novelística de cuadro, intención de manipulacióny preocupaciones éticas.

Para emociónlas ediciones a menudo se describieron con términos como alegre, atractivoo accesiblesugiriendo cambios en cómo los sujetos estaban enmarcados emocionalmente. En términos narrativos, palabras como profesional o diferente Cambios indicados en la historia o configuración implícita:

Se solicitó a Gemini-2.0-Flash a evaluar cómo cada manipulación afectó seis aspectos de la percepción del espectador. Izquierda: Ejemplo de estructura rápida que tutela la evaluación del maniquí. Derecho: nubes de palabras que síntesis los cambios en la emoción, la identidad, la novelística de la cuadro, la intención, la dinámica de poder y las preocupaciones éticas en todo el conjunto de datos.

Las descripciones de los cambios de identidad incluyeron términos como más zagal, Juguetóny delicadomostrando cómo los cambios menores podrían influir en cómo se percibían los individuos. La intención detrás de muchas ediciones fue etiquetada como persuasivo, engañosoo estético. Si admisiblemente se consideró que la mayoría de las ediciones planteaban solo preocupaciones éticas leves, se consideraba que una fracción pequeña llevaba implicaciones éticas moderadas o graves.

Ejemplos de multifakeverse que muestran cómo las ediciones pequeñas cambian de percepción del espectador. Las cajas amarillas resaltan las regiones alteradas, con un disección adlátere de cambios en la emoción, la identidad, la novelística y las preocupaciones éticas.

Métrica

La calidad visual de la colección multifakeverse se evaluó utilizando tres métricas unificado: relación señal / ruido máxima (PSNR); Índice de similitud estructural (SSIM); y la distancia de inicio de Fréchet (FID):

Puntajes de calidad de imagen para multifakeverse medidos por PSNR, SSIM y FID.

La puntuación SSIM de 0.5774 refleja un punto moderado de similitud, consistente con el objetivo de preservar la veterano parte de la imagen mientras se aplica ediciones específicas; La puntuación FID de 3.30 sugiere que las imágenes generadas mantienen de inscripción calidad y variedad; y un valencia de PSNR de 66.30 decibelios indica que las imágenes conservan una buena fidelidad visual luego de la manipulación.

LEER Operai's Quest for AGI: GPT-4O vs. el próximo modelo

Estudio de usuarios

Se realizó un estudio de sucesor para ver qué tan admisiblemente las personas podían detectar las falsificaciones sutiles en MultiFakeverse. Dieciocho participantes se les mostró cincuenta imágenes, divididas uniformemente entre ejemplos reales y manipulados que cubren una variedad de tipos de tiraje. Se le pidió a cada persona que clasifique si la imagen era positivo o falsa y, si es falsa, para identificar qué tipo de manipulación se había trabajador.

La precisión normal para arriesgarse positivo contra apócrifo fue del 61.67 por ciento, lo que significa que los participantes clasificaron las imágenes erróneas más de un tercio del tiempo.

Los autores afirman:

‘Analizando las predicciones humanas de los niveles de manipulación para las imágenes falsas, la intersección promedio sobre la unión entre los niveles de manipulación predichos y reales fue de 24.96%.

«Esto muestra que no es trivial que los observadores humanos identifiquen las regiones de las manipulaciones en nuestro conjunto de datos».

La construcción del conjunto de datos multifakeverse requirió capital computacionales extensos: para crear instrucciones de tiraje, se hicieron más de 845,000 llamadas API a los modelos Gemini y GPT, con estas tareas de impulso que cuestan cerca de de $ 1000; producir las imágenes basadas en Géminis cuestan aproximadamente $ 2,867; y crear imágenes que usan GPT-Image-1 cuestan aproximadamente $ 200. Las imágenes ICEDIT se crearon localmente en una GPU NVIDIA A6000, completando la tarea en aproximadamente veinticuatro horas.

Pruebas

Antiguamente de las pruebas, el conjunto de datos se dividió en capacitación, subsistencia y conjuntos de pruebas seleccionando primero el 70% de las imágenes reales para la capacitación; 10 por ciento para la subsistencia; y 20 por ciento para las pruebas. Las imágenes manipuladas generadas a partir de cada imagen positivo se asignaron al mismo conjunto que su innovador correspondiente.

Otros ejemplos de contenido positivo (izquierda) y modificado (derecha) del conjunto de datos.

El rendimiento en la detección de falsificaciones se midió utilizando la precisión a nivel de imagen (si el sistema clasifica correctamente la imagen completa como positivo o falsa) y los puntajes F1. Para hallar regiones manipuladas, el dominio de evaluación utilizada bajo la curva (AUC), las puntuaciones F1 y la intersección sobre la Unión (IOU).

El conjunto de datos MultiFakeverse se utilizó con los principales sistemas de detección de Deepfake en el conjunto de pruebas completas, siendo los marcos rivales CNNSPOT; AntifakePrompt; Trufor; y el Sida basado en la visión. Cada maniquí se evaluó primero en modo de disparo cero, utilizando sus pesos de petróleo originales sin un ajuste adicional.

Dos modelos, CNNSpot y Sida, fueron ajustados en datos de entrenamiento multifaíver para evaluar si el reentrenamiento mejoró el rendimiento.

Resultados de detección de defake en profundidad en condiciones de múltiples disparos y ajuste fino. Los números entre paréntesis muestran cambios luego del ajuste.

De estos resultados, los autores afirman:

‘(Los) modelos entrenados en falsificaciones de inpateación preliminar que luchan para identificar nuestras falsificaciones basadas en la tiraje de VLM, particularmente, CNNSpot tiende a clasificar casi todas las imágenes como reales. AntifakePrompt tiene el mejor rendimiento de disparo cero con una precisión promedio de clase promedio de 66.87% y un puntaje F1 de 55.55%.

‘Posteriormente de la sintonización en nuestro conjunto de trenes, observamos una restablecimiento del rendimiento tanto en CNNSPOT como en SIDA-13B, con CNNSPOT superando a SIDA-13B en términos de precisión promedio de clase (1.92%), así como F1-Score (por 1.97%)’ ‘.

SIDA-13B se evaluó en MultiFakeVerse para calcular cuán precisamente podría hallar las regiones manipuladas en el interior de cada imagen. El maniquí se probó tanto en modo de disparo cero como luego del ajuste fino en el conjunto de datos.

En su estado innovador, alcanzó un puntaje de intersección a la pelotón de 13.10, una puntuación F1 de 19.92 y un AUC de 14.06, que refleja un rendimiento de enclave débil.

Posteriormente de ajustar, los puntajes mejoraron a 24.74 para IOU, 39.40 para F1 y 37.53 para AUC. Sin requisa, incluso con el entrenamiento adicional, el maniquí todavía tenía problemas para encontrar exactamente dónde se habían realizado las ediciones, destacando lo difícil que puede ser detectar este tipo de pequeños cambios específicos.

Conclusión

El nuevo estudio expone un punto ciego tanto en la percepción humana como en la máquina: si admisiblemente gran parte del debate manifiesto en torno a Deepfakes se ha centrado en los intercambios de identidad de rapidez de titulares, estas ‘ediciones narrativas’ más tranquilas son más difíciles de detectar y potencialmente más corrosivas a espléndido plazo.

A medida que los sistemas como ChatGPT y Gemini asuman un papel más activo en la procreación de este tipo de contenido, y a medida que nosotros mismos participamos cada vez más en la variación de la sinceridad de nuestras propias fotos, los modelos de detección que dependen de detectar manipulaciones crudas pueden ofrecer una defensa inadecuada.

Lo que MultiFakeverse demuestra no es que la detección ha fallado, sino que al menos parte del problema puede estar cambiando a una forma más difícil y de movimiento más flemático: una donde las pequeñas mentiras visuales se acumulan desapercibidas.

Publicado por primera vez el jueves 5 de junio de 2025

Los defectos más pequeños pueden ser la mayor amenaza

Múltiple

Método

Estudio de imágenes

Evaluar el impacto perceptivo

Métrica

Estudio de usuarios

Pruebas

Conclusión

Artículos relacionados

La seguridad del hogar inteligente disfruta del parche prpl en la...

Los actores de amenazas chinos aprovechan la falla de ToolShell SharePoint...

La actualización de WearOS que finalmente enorgullece a los usuarios de...

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

La seguridad del hogar inteligente disfruta del parche prpl en la...

Los actores de amenazas chinos aprovechan la falla de ToolShell SharePoint...

La actualización de WearOS que finalmente enorgullece a los usuarios de...

Los investigadores identifican PassiveNeuron APT utilizando el malware Neursite y NeuralExecutor

Por qué la seguridad inalámbrica privada es ahora una prioridad para...