Exponer ediciones de IA pequeñas pero significativas en video real

Tabla de contenido

En 2019, la presidenta de la Cámara de Representantes de EE. UU., Nancy Pelosi, fue objeto de un ataque de estilo profundo objetivo y proporcionado pérdida en tecnología, cuando el video verdadero de ella fue editado para que pareciera borracho, un incidente irreal que se compartió varios millones de veces antiguamente de que saliera la verdad (y, potencialmente, posteriormente de que un daño obstinado a su caudal político fue afectado por quienes no se mantuvieron en contacto con la historia).

Aunque esta tergiversación requirió solo una impresión simple de audiovisual de audio, en circunscripción de cualquier IA, sigue siendo un ejemplo esencia de cómo los cambios sutiles en la salida audiovisual verdadero pueden tener un huella devastador.

En ese momento, la imagen de Deepfake estaba dominada por los sistemas de reemplazo facial con sede en Autoencoder que habían debutado a fines de 2017, y que no habían mejorado significativamente en calidad desde entonces. Tales sistemas tempranos habrían sido difíciles de crear este tipo de alteraciones pequeñas pero significativas, o para perseguir de guisa realista hilos de investigación modernos, como la impresión de expresiones:

El entorno de 2022 ‘Director de Emoción Neural’ cambia el estado de talante de una cara famosa. Fuente: https://www.youtube.com/watch?v=li6w8prdmjq

Las cosas ahora son proporcionado diferentes. La industria del cine y la televisión está seriamente interesada en la nerviosismo de la postproducción de actuaciones reales utilizando enfoques de formación involuntario y la facilitación de IA de post facto El perfeccionismo incluso ha sido bajo críticas recientes.

Anticipando (o podría decirse) esta demanda, la imagen de investigación de síntesis de imagen y video ha reformista una amplia abanico de proyectos que ofrecen ‘ediciones locales’ de capturas faciales, en circunscripción de reemplazos directos: los proyectos de este tipo incluyen Autoencoders de videos de difusión; Coserlo en el tiempo; Cara de chat; Magicface; y disco, entre otros.

Publicación de expresión con el plan Magicface de enero de 2025. Fuente: https://arxiv.org/pdf/2501.02260

Nuevas caras, nuevas arrugas

Sin bloqueo, las tecnologías habilitadoras se están desarrollando mucho más rápidamente que los métodos para detectarlas. Casi todos los métodos de detección de Deepfake que surgen en la humanidades están persiguiendo los métodos de fake de ayer con los conjuntos de datos de ayer. Hasta esta semana, ningún de ellos había abordado el potencial progresivo de los sistemas de IA para crear alteraciones locales pequeñas y tópicas en el video.

Ahora, un nuevo artículo de la India ha reparado esto, con un sistema que investigación identificar caras que han sido editado (en circunscripción de reemplazarse) a través de técnicas basadas en IA:

Detección de ediciones locales sutiles en Deepfakes: se altera un video verdadero para producir falsificaciones con cambios matizados como cejas elevadas, rasgos de existencias modificados y cambios en la expresión alrededor de el asco (ilustrado aquí con un solo cuadro). Fuente: https://arxiv.org/pdf/2503.22121

El sistema de autores está dirigido a identificar defensores profundos que involucran manipulaciones faciales sutiles y localizadas, una clase de falsificación descuidada. En circunscripción de centrarse en las inconsistencias globales o los desajustes de identidad, el enfoque se dirige a cambios de pizca fino, como ligeros cambios de expresión o ediciones pequeñas a características faciales específicas.

El método utiliza el delimitador de las unidades de actividad (AUS) en el Sistema de codificación de actividad facial (FACS), que define 64 áreas mutables individuales posibles en la cara, que juntos forman expresiones.

Algunas de las partes constituyentes 64 partes en FACS. Fuente: https://www.cs.cmu.edu/~face/facs.htm

Los autores evaluaron su enfoque contra una variedad de métodos de impresión recientes e informan ganancias de rendimiento consistentes, tanto con conjuntos de datos más antiguos como con vectores de ataque mucho más recientes:

LEER El ciclo de retroalimentación de la IA: cuando las máquinas amplifican sus propios errores confiando en las mentiras de los demás

‘Al usar características basadas en AU para encauzar las representaciones de video aprendidas a través de Autoencoders enmascarados ((MAE)), nuestro método captura efectivamente los cambios localizados cruciales para detectar ediciones faciales sutiles.

«Este enfoque nos permite construir una representación subyacente unificada que codifica tanto las ediciones localizadas como las alteraciones más amplias en los videos centrados en la cara, proporcionando una posibilidad integral y adaptable para la detección de profundos».

El nuevo artículo se titula Detección de manipulaciones de defake profundos localizados utilizando representaciones de video guiadas por la dispositivo de actividady proviene de tres autores en el Instituto Indio de Tecnología de Madras.

Método

En tangente con el enfoque acogido por Videomae, el nuevo método comienza aplicando la detección de la cara a un video y muestreo de marcos espaciados uniformemente centrados en las caras detectadas. Estos marcos se dividen en pequeñas divisiones 3D (es sostener, parches habilitados temporalmente), cada uno que captura detalles espaciales y temporales locales.

Esquema para el nuevo método. El video de entrada se procesa con detección de la cara para extraer marcos centrados en la cara espaciados uniformemente, que luego se dividen en parches ‘tubulares’ y se pasan a través de un codificador que fusiona representaciones latentes de dos tareas de pretexto previos al pretenido. El vector resultante es utilizado por un clasificador para determinar si el video es verdadero o fingido.

Cada parche 3D contiene una ventana de píxeles de tamaño fijo (es sostener, 16 × 16) de un pequeño número de marcos sucesivos (es sostener, 2). Esto permite al maniquí estudiar cambios de movimiento y expresión a corto plazo, no solo cómo se ve la cara, sino todavía Cómo se mueve.

Los parches están incrustados y codificados posicionalmente antiguamente de sobrevenir a un codificador diseñado para extraer características que pueden distinguir verdadero de fingido.

Los autores reconocen que esto es particularmente difícil cuando se negociación de manipulaciones sutiles y abordan este problema construyendo un codificador que combina dos tipos separados de representaciones aprendidas, utilizando un mecanismo de atención cruzada para fusionarlas. Esto está destinado a producir un espacio de características más sensible y generalizable para detectar ediciones localizadas.

Tareas de pretexto

La primera de estas representaciones es un codificador entrenado con una tarea de autoencodificación enmascarada. Con el video dividido en parches 3D (la mayoría de los cuales están ocultos), el codificador aprende a recobrar las partes faltantes, lo que lo obliga a capturar importantes patrones espacio -temporales, como el movimiento facial o la consistencia a lo prolongado del tiempo.

El entrenamiento de tareas de pretexto implica tapar partes de la entrada de video y usar una configuración de codificador codificador para recobrar los marcos originales o los mapas de la dispositivo de actividad por cuadro, dependiendo de la tarea.

Sin bloqueo, el documento observa que esto solo no proporciona suficiente sensibilidad para detectar ediciones de pizca fino, y los autores introducen un segundo codificador entrenado para detectar unidades de actividad facial (AUS). Para esta tarea, el maniquí aprende a recobrar mapas AU densos para cada cuadro, nuevamente a partir de entradas parcialmente enmascaradas. Esto lo alienta a centrarse en la actividad muscular localizada, que es donde ocurren muchas ediciones sutiles de Deepfake.

Otros ejemplos de unidades de actividad facial (faus o aus). Fuente: https://www.eiagroup.com/the-facial-action-coding-system/

Una vez que entreambos codificadores están provocados, sus expectativas se combinan utilizando atención cruzada. En circunscripción de simplemente fusionar los dos conjuntos de características, el maniquí utiliza las características basadas en AU como consultas Esa folleto la atención sobre las características espaciales-temporales aprendidas de la autoencodificación enmascarada. En huella, el codificador de la dispositivo de actividad le dice al maniquí dónde averiguar.

LEER AI Singularity and the End of Moore's Law: The Rise of Self-Learning Machines

El resultado es una representación subyacente fusionada que está destinada a capturar tanto el contexto de movimiento más amplio como el detalle de nivel de expresión localizado. Este espacio de características combinadas se usa para la tarea de clasificación final: predecir si un video es verdadero o manipulado.

Datos y pruebas

Implementación

Los autores implementaron el sistema mediante el preprocesamiento de videos de entrada con el entorno de detección de cara basado en FaceXzoo Pytorch, obteniendo 16 marcos centrados en la cara de cada clip. Las tareas de pretexto descritas anteriormente fueron capacitadas en el conjunto de datos Celebv-HQ, que comprende 35,000 videos faciales de inscripción calidad.

Del documento de origen, ejemplos del conjunto de datos CelebV-HQ utilizado en el nuevo plan. Fuente: https://arxiv.org/pdf/2207.12393

La fracción de los ejemplos de datos fueron enmascarados, lo que obligó al sistema a estudiar principios generales en circunscripción de sobrecargarse a los datos de origen.

Para la tarea de reconstrucción del entorno encubierto, el maniquí se entrenó para predecir regiones faltantes de los marcos de video utilizando una pérdida de L1, minimizando la diferencia entre el contenido llamativo y reconstruido.

Para la segunda tarea, el maniquí fue entrenado para crear mapas para 16 unidades de actividad facial, cada una de las cuales representa movimientos musculares sutiles en áreas tales como cejas, párpados, hocico y labios, nuevamente supervisados por la pérdida de L1.

Posteriormente de la entrega previa, los dos codificadores fueron fusionados y ajustados para la detección de Deepfake utilizando el conjunto de datos FaceForensics ++, que contiene videos reales y manipulados.

El conjunto de datos FaceForensics ++ ha sido la piedra angular de la detección de Deepfake desde 2017, aunque ahora está considerablemente desactualizado, con respecto a las últimas técnicas de síntesis facial. Fuente: https://www.youtube.com/watch?v=x2g48q2i2zq

Para tener en cuenta el desequilibrio de clases, los autores utilizaron la pérdida focal (una variación de pérdida de entropía cruzada), que enfatiza ejemplos más desafiantes durante el entrenamiento.

Toda la capacitación se realizó en una sola GPU RTX 4090 con 24 GB de VRAM, con un tamaño de parte de 8 para 600 épocas (revisiones completas de los datos), utilizando puntos de control previamente capacitados de Videomae para inicializar los pesos para cada una de las tareas de pretexto.

Pruebas

Las evaluaciones cuantitativas y cualitativas se llevaron a parte contra una variedad de métodos de detección de profundos: FTCN; RealForensics; Forense labial; EficeNet+Vit; Rayos X de cara; Congelación alt; Cadmm; Laanet; y el SBI de Blendface. En todos los casos, el código fuente estaba apto para estos marcos.

Las pruebas se centraron en los defensores de editados locales, donde solo se alteró parte de un clip de origen. Las arquitecturas utilizadas fueron Autoencoders de video de difusión (DVA); Coserlo en el tiempo (stit); Publicación de la cara desenredada (DFE); Flujo de token; VideoP2p; Text2live; y Fatezero. Estos métodos emplean una disparidad de enfoques (difusión para DVA y StyleGan2 para STIT y DFE, por ejemplo)

LEER ¿Cómo piensa Claude? La búsqueda de Anthrope para desbloquear la caja negra de AI

Los autores afirman:

‘Para avalar una cobertura integral de diferentes manipulaciones faciales, incorporamos una amplia variedad de características faciales y ediciones de atributos. Para la impresión de características faciales, modificamos el tamaño de los luceros, la distancia de la visión de la perspicacia, la relación de la hocico, la distancia de la boca de la hocico, la relación de los labios y la relación de las mejillas. Para la impresión de atributos faciales, variamos expresiones como sonrisa, ira, asco y tristeza.

‘Esta disparidad es esencial para validar la robustez de nuestro maniquí en una amplia abanico de ediciones localizadas. En total, generamos 50 videos para cada uno de los métodos de impresión mencionados anteriormente y validamos la sólida universalización de nuestro método para la detección de defectos profundos.

Los conjuntos de datos de Deepfake más antiguos todavía se incluyeron en las rondas, a enterarse, Celeb-DFV2 (CDF2); Detección de defake (DFD); Desafío de detección de Deepfake (DFDC); y Wilddeepfake (DFW).

Las métricas de evaluación fueron dominio bajo curva (AUC); Precisión promedio; y puntaje medio F1.

Del documento: la comparación en los profundos profundos localizados recientes muestra que el método propuesto superó a todos los demás, con una provecho de 15 a 20 por ciento tanto en AUC como en precisión promedio sobre el mejor enfoque.

Los autores todavía proporcionan una comparación de detección visual para vistas manipuladas localmente (reproducidas solo en parte a continuación, correcto a la descuido de espacio):

Se alteró un video verdadero utilizando tres manipulaciones localizadas diferentes para producir falsificaciones que permanecían visualmente similar al llamativo. Aquí se muestran marcos representativos yuxtapuesto con los puntajes de detección falsos promedio para cada método. Si proporcionadamente los detectores existentes lucharon con estas ediciones sutiles, el maniquí propuesto asignó constantemente altas probabilidades falsas, lo que indica una longevo sensibilidad a los cambios localizados.

Los investigadores comentan:

‘(Los) métodos de detección SOTA existentes, (Laanet), (SBI), (AltFreezing) y (CADMM), experimentan una caída significativa en el rendimiento en los últimos métodos de coexistentes de Deepfake. Los métodos SOTA actuales exhiben AUC tan bajos como 48-71%, lo que demuestra sus malas capacidades de universalización con los recientes profundos.

‘Por otro flanco, nuestro método demuestra una universalización robusta, logrando un AUC en el rango 87-93%. Una tendencia similar todavía se nota en el caso de la precisión promedio. Como se muestra (a continuación), nuestro método todavía logra constantemente un stop rendimiento en los conjuntos de datos normalizado, superando el 90% de AUC y es competitivo con los recientes modelos de detección de Deepfake ‘.

El rendimiento en los conjuntos de datos de Deepfake tradicionales muestra que el método propuesto seguía siendo competitivo con los enfoques principales, lo que indica una válido universalización en una variedad de tipos de manipulación.

Los autores observan que estas últimas pruebas involucran modelos que podrían encontrarse razonablemente como anticuados, y que se introdujeron antiguamente de 2020.

A través de una representación visual más extensa del rendimiento del nuevo maniquí, los autores proporcionan una tabla extensa al final, solo una parte de la cual tenemos espacio para reproducir aquí:

En estos ejemplos, se modificó un video verdadero utilizando tres ediciones localizadas para producir falsificaciones visualmente similares al llamativo. Los puntajes de confianza promedio entre estas manipulaciones muestran, afirman los autores, que el método propuesto detectó las falsificaciones de guisa más confiable que otros enfoques principales. Consulte la página final del PDF de origen para obtener los resultados completos.

Los autores sostienen que su método logra puntajes de confianza por encima del 90 por ciento para la detección de ediciones localizadas, mientras que los métodos de detección existentes permanecieron por debajo del 50 por ciento en la misma tarea. Interpretan esta brecha como evidencia de la sensibilidad y la universalización de su enfoque, y como una indicación de los desafíos que enfrentan las técnicas actuales para tratar este tipo de manipulaciones faciales sutiles.

Para evaluar la confiabilidad del maniquí en condiciones del mundo verdadero, y de acuerdo con el método establecido por CADMM, los autores probaron su rendimiento en videos modificados con distorsiones comunes, incluidos los ajustes a la saturación y el contraste, el desenfoque gaussiano, la pixelación y los artefactos de compresión basados en bloques, así como el ruido aditivo.

Los resultados mostraron que la precisión de detección se mantuvo en gran medida estable en estas perturbaciones. La única disminución extraordinario ocurrió con la añadidura de ruido gaussiano, lo que causó una caída modesta en el rendimiento. Otras alteraciones tuvieron un huella insignificante.

Una ilustración de cómo la precisión de detección cambia en diferentes distorsiones de video. El nuevo método se mantuvo resistente en la mayoría de los casos, con solo una pequeña disminución en AUC. La caída más significativa ocurrió cuando se introdujo el ruido gaussiano.

Estos hallazgos, proponen los autores, sugieren que la capacidad del método para detectar manipulaciones localizadas no se ve fácilmente interrumpida por las degradaciones típicas en la calidad del video, lo que respalda su potencial robustez en entornos prácticos.

Conclusión

La manipulación de la IA existe en la conciencia pública principalmente en la conocimiento tradicional de defectos profundos, donde la identidad de una persona se impone al cuerpo de otra persona, que puede estar realizando acciones antitéticas a los principios del propietario de la identidad. Esta concepción se está actualizando lentamente para distinguir las capacidades más insidiosas de los sistemas de video generativos (en la nueva raza de videos profundos) y las capacidades de los modelos de difusión latentes (LDM) en universal.

Por lo tanto, es regular esperar que el tipo de impresión nave que le preocupa el nuevo artículo se preocupa por no estar a la atención del notorio hasta que ocurra un evento fundamental al estilo Pelosi, ya que las personas se distraen de esta posibilidad por temas más fáciles de agarrar titulares como el fraude de videos de fake profundos.

No obstante, como el actor Nic Cage ha expresado una preocupación consistente sobre la posibilidad de que los procesos de postproducción «revisen» el desempeño de un actor, todavía deberíamos fomentar una longevo conciencia de este tipo de ajuste de video «sutil», no menos importante porque somos increíblemente sensibles a variaciones muy pequeñas de expresión facial, y porque el contexto puede cambiar significativamente el impacto de los pequeños movimientos faciales (considerar el huella injurioso de un huella facial.

Publicado por primera vez el miércoles 2 de abril de 2025

Exponer ediciones de IA pequeñas pero significativas en video real

Nuevas caras, nuevas arrugas

Método

Tareas de pretexto

Datos y pruebas

Implementación

Pruebas

Conclusión

Artículos relacionados

Waze vs. Google Maps: comparé dos de las mejores aplicaciones de...

3.000 vídeos de YouTube expuestos como trampas de malware en una...

GSMA concluye con éxito el MWC25 Kigali

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

Waze vs. Google Maps: comparé dos de las mejores aplicaciones de...

3.000 vídeos de YouTube expuestos como trampas de malware en una...

GSMA concluye con éxito el MWC25 Kigali

Por qué las organizaciones están abandonando los secretos estáticos por identidades...

5 aplicaciones que siempre instalo en cada nueva PC con Windows...