19.1 C
Madrid
sábado, octubre 25, 2025
spot_img
spot_img

Uso de alucinaciones de IA para evaluar el realismo de imágenes

Una nueva investigación de Rusia propone un método poco convencional para detectar imágenes generadas por IA poco realistas, no mejorando la precisión de los grandes modelos en idioma de visión (LVLM), sino al disfrutar intencionalmente su tendencia a delirar.

El enfoque novedoso extrae múltiples ‘hechos atómicos’ sobre una imagen que usa LVLMS, luego aplica la inferencia del verbo natural (NLI) para evaluar sistemáticamente las contradicciones entre estas declaraciones, convirtiendo efectivamente las fallas del maniquí en una útil de dictamen para detectar imágenes que desafían el sentido popular.

¡Dos imágenes de los Whoops! conjunto de datos contiguo con declaraciones generadas automáticamente por el maniquí LVLM. La imagen izquierda es realista, lo que lleva a descripciones consistentes, mientras que la imagen derecha inusual hace que el maniquí asombro, produciendo declaraciones contradictorias o falsas. Fuente: https://arxiv.org/pdf/2503.15948

Pidido evaluar el realismo de la segunda imagen, el LVLM puede ver que poco está mal, ya que el camello representado tiene tres jorobas, lo cual es desconocido en la naturaleza.

Sin confiscación, el LVLM inicialmente combina > 2 jorobas con > 2 animalescubo que esta es la única forma en que podría ver tres jorobas en una ‘imagen de camello’. Luego procede a delirar poco aún más improbable que tres jorobas (es afirmar, ‘dos ​​cabezas’) y nunca detalla lo que parece activo desencadenado sus sospechas: la molestia extra improbable.

Los investigadores del nuevo trabajo encontraron que los modelos LVLM pueden realizar este tipo de evaluación de forma nativa, y a la par con (o mejores) modelos que han sido ajustados para una tarea de este tipo. Hexaedro que el ajuste es complicado, costoso y proporcionado frágil en términos de aplicabilidad aguas debajo, el descubrimiento de un uso nativo para uno de los mejores obstáculos de la revolución coetáneo de IA es un rotación refrescante para las tendencias generales de la letras.

Evaluación abierta

La importancia del enfoque, afirman los autores, es que se puede implementar con código rajado marcos. Si acertadamente un maniquí innovador y de suscripción inversión como ChatGPT puede (el documento admite) potencialmente ofrecer mejores resultados en esta tarea, el valía actual discutible de la letras para la mayoría de nosotros (y especialmente para las comunidades aficionadas y VFX) es la posibilidad de incorporar y desarrollar nuevos ruptores en las implementaciones locales; Por el contrario, todo lo destinado a un sistema de API comercial patentado está sujeto a retiro, aumentos de precios arbitrarios y políticas de censura que tienen más probabilidades de reverberar las preocupaciones corporativas de una empresa que las deyección y responsabilidades del favorecido.

LEER  Gemini 2.5 Flash: liderando el futuro de la IA con razonamiento avanzado y adaptabilidad en tiempo real

El nuevo artículo se titula No luche contra las alucinaciones, úselas: estimar el realismo de la imagen usando NLI sobre hechos atómicosy proviene de cinco investigadores en el Instituto de Ciencia y Tecnología Skolkovo (Skoltech), el Instituto de Física y Tecnología de Moscú, y las compañías rusas MTS AI y Airi. El trabajo tiene una página de GitHub que lo acompaña.

Método

¡Los autores usan los gritos israelíes/de EE. UU.! Conjunto de datos para el tesina:

¡Ejemplos de imágenes imposibles de los gritos! Conjunto de datos. Es trascendente cómo estas imágenes ensamblan fundamentos plausibles, y que su improbabilidad debe calcularse en función de la concatenación de estas facetas incompatibles. Fuente: https://whoops-benchmark.github.io/

El conjunto de datos comprende 500 imágenes sintéticas y más de 10,874 anotaciones, diseñadas específicamente para probar el razonamiento de sentido popular y la comprensión compositiva de los modelos AI. Fue creado en colaboración con diseñadores encargados de crear imágenes desafiantes a través de sistemas de texto a imagen como MidJourney y la serie Dall-E, produciendo escenarios difíciles o imposibles de capturar lógicamente:

¡Más ejemplos de los Whoops! conjunto de datos. Fuente: https://huggingface.co/datasets/nlphuji/whoops

El nuevo enfoque funciona en tres etapas: primero, se solicita al LVLM (específicamente Llava-V1.6-Mistral-7b) que genere múltiples declaraciones simples, llamadas ‘hechos atómicos’, que describe una imagen. Estas declaraciones se generan utilizando diversas búsqueda de haz, asegurando la variabilidad en las expectativas.

Diversa búsqueda de haz produce una mejor variedad de opciones de subtítulos al optimizar para un objetivo hidrológico de desemejanza. Fuente: https://arxiv.org/pdf/1610.02424

A continuación, cada proclamación generada se compara sistemáticamente con cualquier otra proclamación utilizando un maniquí de inferencia de verbo natural, que asigna puntajes que reflejan si los pares de declaraciones implican, contradicen o son neutrales entre sí.

LEER  Alexa de Amazon: una nueva era de asistentes personales con IA

Las contradicciones indican alucinaciones o fundamentos poco realistas interiormente de la imagen:

Esquema para la tubería de detección.

Finalmente, el método agrega estos puntajes NLI por pares en un único «puntaje de existencia» que cuantifica la coherencia común de las declaraciones generadas.

Los investigadores exploraron diferentes métodos de agregación, con un enfoque basado en la agrupación que funciona mejor. Los autores aplicaron el operación de agrupación de K-means para separar las puntuaciones de NLI individuales en dos grupos, y el centroide del clúster de pequeño valía se eligió como la métrica final.

El uso de dos grupos se alinea directamente con la naturaleza binaria de la tarea de clasificación, es afirmar, distinguiendo imágenes realistas de no realistas. La razonamiento es similar a simplemente nominar el puntaje más bajo en común; Sin confiscación, la agrupación permite que la métrica represente la contradicción promedio en múltiples hechos, en oportunidad de servir de un solo valía atípico.

Datos y pruebas

¡Los investigadores probaron su sistema en los Whoops! El punto de narración de tangente de pulvínulo, utilizando divisiones de prueba de rotación (es afirmar, potencia cruzada). Los modelos probados fueron Blip2 Flant5-XL y Blip2 Flant5-XXL en divisiones, y Blip2 Flant5-XXL en formato de disparo cero (es afirmar, sin entrenamiento adicional).

Para una tangente de pulvínulo de seguimiento de instrucciones, los autores solicitaron los LVLM con la frase ¿Es esto inusual? Explique brevemente con una oración corta ‘que la investigación previa encontró efectiva para detectar imágenes poco realistas.

Los modelos evaluados fueron Llava 1.6 Mistral 7b, Llava 1.6 Vicuna 13B y dos tamaños (7/13 mil millones de parámetros) de InstructBlip.

El procedimiento de prueba se centró en 102 pares de imágenes realistas y poco realistas (‘extrañas’). Cada par estaba compuesto por una imagen frecuente y una contraparte que desafía el sentido popular.

LEER  Nvidia Cosmos: Empoderando la IA física con simulaciones

Tres anotadores humanos etiquetaron las imágenes, llegando a un consenso del 92%, lo que indica un esforzado acuerdo humano sobre lo que constituía la «aberración». La precisión de los métodos de evaluación se midió por su capacidad para distinguir correctamente entre imágenes realistas y poco realistas.

El sistema se evaluó utilizando la potencia cruzada triple, barajando aleatoriamente los datos con una semilla fija. Los autores ajustaron los pesos para los puntajes de implicación (declaraciones que están lógicamente de acuerdo) y puntajes de contradicción (declaraciones que en conflicto lógicamente) durante el entrenamiento, mientras que los puntajes ‘neutrales’ se fijaron en cero. La precisión final se calculó como el promedio en todas las divisiones de prueba.

Comparación de diferentes modelos NLI y métodos de agregación en un subconjunto de cinco hechos generados, medidos por precisión.

Con respecto a los resultados iniciales que se muestran anteriormente, el documento establece:

‘El método (‘ clust ‘) se destaca como uno de los mejores desempeños. Esto implica que la agregación de todos los puntajes de contradicción es crucial, en oportunidad de centrarse solo en títulos extremos. Por otra parte, el maniquí NLI más alto (NLI-DEBERTA-V3-LARGE) supera a todos los demás para todos los métodos de agregación, lo que sugiere que captura la esencia del problema de modo más efectiva.

Los autores encontraron que los pesos óptimos favorecían constantemente la contradicción sobre la implicación, lo que indica que las contradicciones eran más informativas para distinguir imágenes poco realistas. Su método superó a todos los demás métodos de disparo cero probados, acercándose estrechamente al rendimiento del maniquí Blip2 sintonizado:

¡Rendimiento de varios enfoques en los Whoops! punto de narración. Los métodos ajustados (FT) aparecen en la parte superior, mientras que los métodos de disparo cero (ZS) se enumeran debajo. El tamaño del maniquí indica el número de parámetros, y la precisión se usa como métrica de evaluación.

Todavía notaron, de modo inesperada, que InstructBlip funcionó mejor que los modelos Llava comparables cubo el mismo aviso. Si acertadamente reconoce la precisión superior de GPT-4O, el artículo enfatiza la preferencia de los autores por demostrar soluciones prácticas de código rajado y, al parecer, puede exigir razonablemente la novedad para explotar explícitamente las alucinaciones como una útil de dictamen.

Conclusión

Sin confiscación, los autores reconocen la deuda de su tesina con la salida de Faithscore 2024, una colaboración entre la Universidad de Texas en la Universidad de Dallas y Johns Hopkins.

Ilustración de cómo funciona la evaluación de Faithscore. Primero, se identifican declaraciones descriptivas interiormente de una respuesta generada por LVLM. A continuación, estas declaraciones se dividen en hechos atómicos individuales. Finalmente, los hechos atómicos se comparan con la imagen de entrada para efectuar su precisión. El texto subrayado destaca el contenido descriptivo objetivo, mientras que el texto azur indica declaraciones alucinadas, lo que permite que Faithscore entregue una medida interpretable de la corrección objetiva. Fuente: https://arxiv.org/pdf/2311.01477

Faithscore mide la fidelidad de las descripciones generadas por LVLM al efectuar la consistencia contra el contenido de la imagen, mientras que los métodos del nuevo artículo explotan explícitamente las alucinaciones LVLM para detectar imágenes poco realistas a través de contradicciones en hechos generados utilizando inferencia del verbo natural.

El nuevo trabajo depende, lógicamente, de las excentricidades de los modelos de idiomas actuales, y de su disposición al delirar. Si el expansión del maniquí alguna vez produzca un maniquí completamente no afectante, incluso los principios generales del nuevo trabajo ya no serían aplicables. Sin confiscación, esta sigue siendo una perspectiva desafiante.

Publicado por primera vez el martes 25 de marzo de 2025

spot_img

Artículos relacionados

spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Últimos artículos