Jpeg ai difumina la línea entre real y sintético

Tabla de contenido

En febrero de este año, se publicó el Unificado Internacional JPEG AI, posteriormente de varios abriles de investigación destinados a usar técnicas de estudios automotriz para producir un códec de imágenes más pequeño y más fácilmente transmisible y almacenable, sin una pérdida de calidad perceptiva.

Desde la corriente de publicación oficial para JPEG AI, una comparación entre la relación señal / ruido máxima (PSNR) y el enfoque unido a ML de JPEG AI. Fuente: https://jpeg.org/jpegai/documentation.html

Una posible razón por la cual este Adviento llegó a pocos titulares es que los PDF básicos para este anuncio (irónicamente) no estaban disponibles a través de portales de comunicación disponible como ARXIV. No obstante, Arxiv ya había presentado una serie de estudios que examinan la importancia de JPEG AI en varios aspectos, incluidos los artefactos de compresión poco comunes del método y su importancia para los forenses.

Un estudio comparó los artefactos de compresión, incluidos los de un goma mencionado de JPEG AI, descubriendo que el nuevo método tenía una tendencia a difuminar el texto, no un asunto beocio en los casos en que el códec podría contribuir a una condena de evidencia. Fuente: https://arxiv.org/pdf/2411.06810

Oportuno a que JPEG AI altera las imágenes de forma que imiten los artefactos de los generadores de imágenes sintéticas, las herramientas forenses existentes tienen dificultades para diferenciar las imágenes reales de las falsas:

Luego de la compresión de JPEG AI, los algoritmos de última procreación ya no pueden separar el contenido auténtico de las regiones manipuladas en los mapas de lugar, según un artículo nuevo (marzo de 2025). Los ejemplos de origen que se ven a la izquierda son imágenes manipuladas/falsas, en las que las regiones manipuladas están claramente delineadas bajo técnicas forenses en serie (imagen central). Sin confiscación, la compresión JPEG AI le da a las imágenes falsas una capa de credibilidad (imagen a la derecha). Fuente: https://arxiv.org/pdf/2412.03261

Una razón es que JPEG AI está capacitado utilizando una inmueble maniquí similar a las utilizadas por sistemas generativos que las herramientas forenses tienen como objetivo detectar:

El nuevo artículo ilustra la similitud entre las metodologías de compresión de imagen impulsada por IA y imágenes reales generadas por IA. Fuente: https://arxiv.org/pdf/2504.03191

Por lo tanto, los dos modelos pueden producir algunas características visuales subyacentes similares, desde un punto de panorama forense.

Cuantificación

Este cruce ocurre adecuado a cuantificaciónglobal a ambas arquitecturas, y que se utiliza en el estudios automotriz, tanto como un método para convertir datos continuos en puntos de datos discretos, y como una técnica de optimización que puede adelgazar significativamente el tamaño del archivo de un maniquí capacitado (entusiastas de la síntesis de imágenes casuales estará familiarizado con la aplazamiento entre un divulgación de maniquí oficial y una interpretación cuantificada comunitaria que puede funcionar con hardware locorregional).

En este contexto, la cuantización se refiere al proceso de conversión de los títulos continuos en la representación velado de la imagen en pasos fijos y discretos. JPEG AI utiliza este proceso para dominar la cantidad de datos necesarios para acumular o transmitir una imagen simplificando la representación numérica interna.

Aunque la cuantización hace que la codificación sea más competente, igualmente impone regularidades estructurales que pueden parecerse a los artefactos dejados por modelos generativos, lo suficientemente sutil como para esquivar la percepción, pero perjudicial para las herramientas forenses.

En respuesta, los autores de un nuevo trabajo titulado Tres señales forenses para imágenes JPEG AI proponer técnicas interpretables y no neurales que detecten la compresión de JPEG AI; determinar si una imagen ha sido recompresada; y distinguir las imágenes reales comprimidas de las generadas por completo por AI.

LEER Por qué los camiones virtuales impulsados por la IA de Waabi son el futuro de la tecnología autónoma

Método

Correlaciones de color

El artículo propone tres ‘señales forenses’ adaptadas a las imágenes JPEG AI: Correlaciones del canal de colorintroducido durante los pasos de preprocesamiento de JPEG AI; distorsiones medibles en la calidad de imagen a través de compresiones repetidas que revelan eventos de recompresión; y Patrones de cuantificación de espacios latentes que ayudan a distinguir entre imágenes comprimidas por JPEG AI y las generadas por modelos AI.

Con respecto al enfoque basado en la correlación de color, la tubería de preprocesamiento de JPEG AI introduce dependencias estadísticas entre los canales de color de la imagen, creando una firma que puede servir como una señal forense.

JPEG AI convierte las imágenes RGB en el espacio de color YUV y realiza un submuestreo de croma 4: 2: 0, lo que implica la reducción de los canales de crominanza antaño de la compresión. Este proceso conduce a correlaciones sutiles entre los residuos de suscripción frecuencia de los canales rojos, verdes y azules, correlaciones que no están presentes en imágenes sin comprimir, y que difieren en la resistor de las producidas por la compresión JPEG tradicional o los generadores de imágenes sintéticas.

Una comparación de cómo la compresión JPEG AI altera las correlaciones de color en las imágenes.

Hacia lo alto podemos ver una comparación del documento que ilustra cómo la compresión JPEG AI altera las correlaciones de color en las imágenes, utilizando el canal rojo como ejemplo.

El panel A compara imágenes sin comprimir con las comprimidas con JPEG AI, lo que demuestra que la compresión aumenta significativamente la correlación entre canales; El panel B aísla el impresión del preprocesamiento de JPEG AI, solo la conversión de color y el submuestreo, lo que demuestra que incluso este paso solo eleva las correlaciones notablemente; El panel C muestra que la compresión tradicional de JPEG igualmente aumenta levemente las correlaciones, pero no en el mismo categoría; y el panel D examina las imágenes sintéticas, con MidJourney-V5 y Adobe Firefly que muestran aumentos de correlación moderados, mientras que otros permanecen más cerca de los niveles sin comprimir.

Distorsión de tasas

El toque de distorsión de la distorsión identifica la recompresión de JPEG AI mediante el seguimiento de cómo la calidad de imagen, medida por la relación de señal / ruido máxima (PSNR), disminuye en un patrón predecible a través de múltiples pases de compresión.

La investigación sostiene que la comprimir repetidamente una imagen con JPEG AI conduce a pérdidas progresivamente más pequeñas, pero aún medibles, en la calidad de la imagen, como se cuantifica por PSNR, y que esta degradación escalonado forma la colchoneta de una señal forense para detectar si se ha recompensado una imagen.

A diferencia del JPEG tradicional, donde los métodos anteriores rastrearon cambios en bloques de imágenes específicos, JPEG AI requiere un enfoque diferente, adecuado a su inmueble de compresión neural; Por lo tanto, los autores proponen monitorear cómo la tasa de bits y el PSNR evolucionan sobre compresiones sucesivas. Cada ronda de compresión altera la imagen menos que la mencionado, y este cambio decreciente (cuando se traza contra la tasa de bits) puede revelar si una imagen ha pasado por múltiples etapas de compresión:

Una ilustración de cómo la compresión repetida afecta la calidad de la imagen en diferentes códecs, con resultados de JPEG AI y un códec neural desarrollado en https://arxiv.org/pdf/1802.01436; Los dos exhiben una disminución constante en PSNR con cada compresión adicional, incluso en tasas de bits más bajas. Por el contrario, la compresión tradicional de JPEG mantiene una calidad relativamente estable en múltiples compresiones, a menos que la tasa de bits sea suscripción.

En la imagen de hacia lo alto, vemos curvas de distorsión de velocidad gráfica para JPEG AI; un segundo códec basado en la IA; y JPEG tradicional, descubriendo que JPEG AI y el códec neural muestran una disminución constante de PSNR en todas las tasas de bits, mientras que JPEG tradicional solo muestra una degradación sobresaliente a tasas de bits mucho más altas. Este comportamiento proporciona una señal cuantificable que puede estar de moda para marcar imágenes JPEG AI recompensadas.

LEER Lo que AI nos está enseñando sobre las civilizaciones antiguas

Al extraer cómo la tasa de bits y la calidad de la imagen evolucionan en múltiples rondas de compresión, los autores construyeron de forma similar una firma que ayuda a marcar si se ha reconstruido una imagen, lo que proporciona una posible señal forense maña en el contexto de JPEG AI.

Cuantificación

Como vimos anteriormente, uno de los problemas forenses más desafiantes planteados por JPEG AI es su similitud visual con las imágenes sintéticas generadas por los modelos de difusión. Los dos sistemas utilizan arquitecturas codificadoras -decodificador que procesan imágenes en un espacio velado comprimido y a menudo dejan artefactos sutiles de muestreo.

Estos rasgos compartidos pueden confundir a los detectores, incluso aquellos que se vuelven a entrenar en las imágenes JPEG AI. Sin confiscación, queda una diferencia estructural secreto: JPEG AI aplica cuantización, un paso que redondea los títulos latentes a niveles discretos para una compresión competente, mientras que los modelos generativos generalmente no lo hacen.

El nuevo artículo utiliza esta distinción para diseñar una señal forense que pruebe indirectamente para la presencia de cuantización. El método analiza cómo la representación velado de una imagen asegura al redondeo, suponiendo que si una imagen ya se ha cuantificado, su estructura velado exhibirá un patrón de adscripción medible con títulos redondeados.

Estos patrones, aunque invisibles para el ojo, producen diferencias estadísticas que pueden ayudar a separar las imágenes reales comprimidas de las completamente sintéticas.

Un ejemplo de los espectros promedio de Fourier revela que tanto las imágenes comprimidas con JPEG AI como las generadas por modelos de difusión como MidJourney-V5 y la difusión estable XL exhiben patrones regulares similares a la cuadrícula en el dominio de frecuencia, artefactos comúnmente vinculados a la cumbre. Por el contrario, las imágenes reales carecen de estos patrones. Esta superposición en la estructura fantasmagórico ayuda a explicar por qué las herramientas forenses a menudo confunden las imágenes reales comprimidas con las sintéticas.

Es importante destacar que los autores muestran que esta señal funciona en diferentes modelos generativos y sigue siendo efectiva incluso cuando la compresión es lo suficientemente resistente como para cero secciones completas del espacio velado. Por el contrario, las imágenes sintéticas muestran respuestas mucho más débiles a esta prueba de redondeo, ofreciendo una forma maña de distinguir entre los dos.

El resultado se pretende como una útil liviana e interpretable que se dirige a la diferencia central entre la compresión y la procreación, en área de subordinarse de los artefactos de superficie frágil.

Datos y pruebas

Compresión

Para evaluar si su señal de correlación de color podría detectar de forma confiable la compresión de JPEG AI (es proponer, un primer paso de la fuente sin comprimir), los autores lo probaron en imágenes sin comprimir de suscripción calidad del conjunto de datos de elevación, comprimiéndolas en una variedad de ramas de bits, utilizando la implementación de narración JPEG AI.

Entrenaron un bosque casual simple en los patrones estadísticos de las correlaciones del canal de color (particularmente cómo el ruido residual en cada canal se alineó con los demás) y lo compararon con una red neuronal ResNet50 entrenada directamente en los píxeles de la imagen.

Precisión de detección de la compresión de JPEG AI utilizando características de correlación de color, comparadas con múltiples tasas de bits. El método es más efectivo en tasas de bits más bajas, donde los artefactos de compresión son más fuertes y muestra una mejor universalización a los niveles de compresión invisibles que el maniquí de colchoneta RESNET50.

Si aceptablemente el ResNet50 alcanzó una maduro precisión cuando los datos de la prueba coincidían estrechamente con sus condiciones de entrenamiento, luchó para generalizarse en diferentes niveles de compresión. El enfoque basado en la correlación, aunque mucho más simple, demostró ser más consistente en todas las tasas de bits, especialmente a tasas de compresión más bajas donde el preprocesamiento de JPEG AI tiene un impresión más resistente.

LEER Sistemas de texto a video de jailbreak con indicaciones reescritas

Estos resultados sugieren que incluso sin un estudios profundo, es posible detectar la compresión de JPEG AI utilizando señales estadísticas que permanecen interpretables y resistentes.

Retribución

Para evaluar si JPEG AI reLa compresión se puede detectar de forma confiable, los investigadores probaron el ejemplo de la distorsión de la velocidad en un conjunto de imágenes comprimidas en diversas tasas de bits, algunas solo una vez y otras por segunda vez usando JPEG AI.

Este método consistió en extraer un vector de características 17 dimensional para rastrear cómo la tasa de bits de la imagen y PSNR evolucionaron en tres compresión. Este conjunto de características capturó cuánta calidad se perdió en cada paso, y cómo se comportan las tasas latentes e hiperprior, las mádricas a las que los métodos tradicionales basados en píxeles no pueden ingresar fácilmente.

Los investigadores capacitaron a un bosque casual en estas características y compararon su rendimiento con un resnet50 entrenado en parches de imagen:

Resultados para la precisión de clasificación de un bosque casual entrenado en características de distorsión de tarifas para detectar si se ha recompensado una imagen JPEG AI. El método funciona mejor cuando la compresión auténtico es resistente (es proponer, en tasas de bits más bajas), y luego supera constantemente un resnet50 basado en píxeles, especialmente en los casos en que la segunda compresión es más suave que la primera.

El bosque casual demostró ser notablemente efectivo cuando la compresión auténtico era resistente (es proponer, en tasas de bits más bajas), revelando diferencias claras entre las imágenes simplificadas simples y dobles. Al igual que con la señal mencionado, la iteración ResNet50 luchó para generalizarse, particularmente cuando se probó en los niveles de compresión que no había pasado durante el entrenamiento.

Las características de distorsión de la velocidad, por el contrario, se mantuvieron estables en una amplia tonalidad de escenarios. En particular, la señal funcionó incluso cuando se aplicó a un códec diferente basado en la IA, lo que sugiere que el enfoque se generaliza más allá de JPEG AI.

Jpeg ai e imágenes sintéticas

Para la ronda de pruebas finales, los autores probaron si sus características basadas en cuantización pueden distinguir entre imágenes comprimidas con JPEG AI e imágenes completamente sintéticas generadas por modelos como MidJourney, Difusión estable, Dall-E 2, Glide y Adobe Firefly.

Para esto, los investigadores utilizaron un subconjunto del conjunto de datos SynthBuster, mezclando fotos reales de la colchoneta de datos Raise con imágenes generadas de una tonalidad de modelos basados en difusión y provecho.

Ejemplos de imágenes sintéticas en SynthBuster, generados utilizando indicaciones de texto inspiradas en fotografías naturales del conjunto de datos Rais-1k. Las imágenes se crearon con varios modelos de difusión, con indicaciones diseñadas para producir contenido fotorrealista y texturas en área de representaciones estilizadas o artísticas. Fuente: https://ieeExplore.ieee.org/document/10334046

Las imágenes reales se comprimieron utilizando JPEG AI en varios niveles de tasa de bit, y la clasificación se planteó como una tarea bidireccional: JPEG AI contra un dinamo específico o una tasa de bits específica contra difusión estable XL.

Las características de cuantización (correlaciones extraídas de representaciones latentes) se calcularon a partir de una región fija de 256 × 256 y se alimentaron a un clasificador de bosque casual. Como sarta de colchoneta, un resnet50 fue entrenado en parches de píxeles de los mismos datos.

Precisión de clasificación de un bosque casual que utiliza características de cuantización para separar imágenes comprimidas con JPEG AI de imágenes sintéticas.

En la mayoría de las condiciones, el enfoque basado en cuantización superó la sarta de colchoneta ResNet50, particularmente en tasas de bits bajas donde los artefactos de compresión eran más fuertes.

Los autores afirman:

‘La sarta de colchoneta ResNet50 funciona mejor para las imágenes de deslizamiento con una precisión del 66.1%, pero de lo contrario se generaliza peor que las características de cuantización. Las características de cuantización exhiben una buena universalización entre las resistencias a la compresión y los tipos de generadores.

‘La importancia de los coeficientes que se cuantifican a cero se muestran en el rendimiento muy respetable de los truncados (características), que en muchos casos funcionan comparables al clasificador ResNet50.

‘Sin confiscación, las características de cuantización que usan el impasible completo no anunciado (vector) todavía funcionan notablemente mejor. Estos resultados confirman que la cantidad de ceros posteriormente de la cuantización es una señal importante para diferenciar las imágenes comprimidas con IA y generadas por IA.

‘Sin confiscación, igualmente muestra que igualmente otros factores contribuyen. La precisión del vector completo para detectar JPEG AI es para todas las tasas de bits superiores al 91.0%, y la compresión más resistente conduce a mayores precisiones «.

Una proyección del espacio de características usando UMAP mostró una clara separación entre JPEG AI y las imágenes sintéticas, con tasas de bits más bajas que aumentan la distancia entre las clases. Un valía atípico consistente fue Glide, cuyas imágenes se agruparon de forma diferente y tenían la precisión de detección más herido de cualquier dinamo probado.

Visualización de UMAP bidimensional de imágenes sintéticas y comprimidas y sintéticas JPEG AI, basada en características de cuantización. La gráfica izquierda muestra que las tasas de bits JPEG AI inferiores crean una maduro separación de las imágenes sintéticas; La trama correcta, cómo las imágenes de diferentes generadores se agrupan claramente en el interior del espacio de características.

Finalmente, los autores evaluaron qué tan aceptablemente las características se mantuvieron bajo el postprocesamiento representativo, como la recompresión JPEG o la reducción de muestras. Si aceptablemente el rendimiento disminuyó con el procesamiento más pesado, la caída fue escalonado, lo que sugiere que el enfoque conserva cierta robustez incluso en condiciones degradadas.

Evaluación de la robustez de la característica de cuantificación bajo el procesamiento posterior, incluida la recompresión JPEG (JPG) y el cambio de tamaño de imagen (RS).

Conclusión

No está resguardado que JPEG AI disfrutará de una amplia admisión. Por un flanco, hay suficiente deuda de infraestructura en cuestión para imponer fricción a cualquier nuevo códec; E incluso un códec ‘convencional’ con un pedigrí fino y un amplio consenso en cuanto a su valía, como AV1, tiene dificultades para desalojar los métodos titulares de larga data.

En lo que respecta al posible choque del sistema con los generadores de IA, los artefactos de cuantización característica que ayudan a contemporáneo La procreación de detectores de imágenes de IA puede disminuirse o reemplazarse en última instancia por trazas de un tipo diferente, en sistemas posteriores (suponiendo que los generadores de IA siempre dejarán residuos forenses, lo cual no es seguro).

Esto significaría que las propias características de cuantización de JPEG AI, tal vez adjunto con otras señales identificadas por el nuevo artículo, pueden no terminar colisionando con el indicio forense de los nuevos sistemas de IA generativos más efectivos.

Sin confiscación, si JPEG AI continúa operando como un En verdad ‘AI Wash’, que difumina significativamente la distinción entre imágenes reales y generadas, sería difícil presentar un caso convincente para su filtración.

Publicado por primera vez el martes 8 de abril de 2025

Jpeg ai difumina la línea entre real y sintético

Cuantificación

Método

Correlaciones de color

Distorsión de tasas

Cuantificación

Datos y pruebas

Compresión

Retribución

Jpeg ai e imágenes sintéticas

Conclusión

Artículos relacionados

Waze vs. Google Maps: comparé dos de las mejores aplicaciones de...

3.000 vídeos de YouTube expuestos como trampas de malware en una...

GSMA concluye con éxito el MWC25 Kigali

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

Waze vs. Google Maps: comparé dos de las mejores aplicaciones de...

3.000 vídeos de YouTube expuestos como trampas de malware en una...

GSMA concluye con éxito el MWC25 Kigali

Por qué las organizaciones están abandonando los secretos estáticos por identidades...

5 aplicaciones que siempre instalo en cada nueva PC con Windows...