14.9 C
Madrid
miércoles, octubre 22, 2025
spot_img
spot_img

La lucha de AI para leer relojes analógicos puede tener un significado más profundo

Un nuevo artículo de investigadores en China y España encuentra que incluso avanzó modelos de IA multimodales como GPT-4.1 lucha por afirmar el tiempo de las imágenes de relojes analógicos. Los pequeños cambios visuales en los relojes pueden causar errores de interpretación importantes, y el ajuste fino solo ayuda con ejemplos familiares. Los resultados plantean preocupaciones sobre la confiabilidad de estos modelos cuando se enfrentan a imágenes desconocidas en tareas del mundo positivo.

Cuando los humanos desarrollan una comprensión lo suficientemente profunda de un dominio, como la compromiso u otros principios físicos básicos, avanzamos más allá de los ejemplos específicos para comprender las abstracciones subyacentes. Esto nos permite aplicar ese conocimiento creativamente a través de contextos y recordar nuevas instancias, incluso aquellas que nunca hemos pasado antiguamente, identificando el principio en entusiasmo.

Cuando un dominio tiene suficiente importancia, incluso podemos comenzar a percibirlo donde no existecomo con Pareidolia, impulsado por el stop costo de no recordar una instancia positivo. Tan válido es este mecanismo de supervivencia que reconoce el patrón que incluso nos dispone de encontrar una variedad más amplia de patrones donde no hay nadie.

Cuanto más se inculca un dominio susodicho y más repetitivo, más profunda su cojín y persistencia de por vida; Y uno de los primeros conjuntos de datos visuales a los que estamos expuestos cuando los niños vienen en forma de clocks de enseñanza, donde se usan material impreso o relojes analógicos interactivos para enseñarnos cómo afirmar el tiempo:

Enseñanza de SIDA para ayudar a los niños a instruirse a afirmar tiempo. Fuente: https://www.youtube.com/watch?v=ibbqxbhsnus

Aunque cambiar las modas en el diseño de relojes a veces puede desafiarnos, la resiliencia de este avezado de dominio temprano es proporcionado impresionante, lo que nos permite discernir caras analógicas de cronómetro incluso frente a las opciones de diseño complejas o ‘excéntricas’:

Algunas caras desafiantes en el cronómetro coutura. Fuente: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/

Los humanos no necesitan miles de ejemplos para instruirse cómo funcionan los relojes; Una vez que se comprende el concepto sustancial, podemos reconocerlo en casi cualquier forma, incluso cuando se distorsionan o abstrae.

La dificultad que los modelos de IA enfrentan con esta tarea, por el contrario, destaca un problema más profundo: su evidente fuerza puede reconocer más de la exposición de stop bombeo que de la comprensión.

¿Más allá del selección de imitación?

La tensión entre el rendimiento a nivel de superficie y la «comprensión» genuina ha aparecido repetidamente en investigaciones recientes de modelos grandes. El mes pasado, la Universidad de Zhejiang y la Universidad de Westlake volvieron a contraponer la pregunta en un artículo titulado ¿Los LLM de nivel de doctorado verdaderamente agarran la suplemento superficial? (no el foco de este artículo), concluyendo:

‘A pesar de los impresionantes puntos de relato, los modelos muestran una dependencia crítica de la coincidencia de patrones en superficie de la verdadera comprensión, evidenciada por fallas con representaciones simbólicas y violaciones de las propiedades básicas.

‘El rendimiento de la disposición de reglas explícitas sugiere restricciones arquitectónicas inherentes. Estas ideas revelan brechas de evaluación y destacan la penuria de arquitecturas capaces de un razonamiento matemático acreditado más allá del registro de patrones ‘.

Esta semana, la pregunta surge nuevamente, ahora en una colaboración entre la Universidad de Aeronáutica y Astronáutica de Nanjing y la Universidad Politécnica de Madrid en España. Eminente ¿Han aprendido verdaderamente los modelos multimodales de verbo egregio (MLLMS) a afirmar la hora en los relojes analógicos?el nuevo artículo explora qué tan correctamente los modelos multimodales comprenden el tiempo de traspaso.

LEER  El surgimiento de la autorreflexión en la IA: cómo los modelos de idiomas grandes están utilizando ideas personales para evolucionar

Aunque el progreso de la investigación se cubre solo con amplio detalle en el documento, las pruebas iniciales de los investigadores establecieron que el maniquí de verbo multimodal GPT-4.1 de OpenAI tuvo dificultades para analizar correctamente el tiempo de un conjunto diverso de imágenes de cronómetro, a menudo dando respuestas incorrectas incluso en casos simples.

Esto apunta a una posible brecha en los datos de capacitación del maniquí, que aumenta la penuria de un conjunto de datos más controlado, para probar si el maniquí puede instruirse el concepto subyacente. Por lo tanto, los autores seleccionaron un conjunto de datos sintético de relojes analógicos, cubriendo uniformemente cada tiempo posible y evitando los sesgos habituales que se encuentran en las imágenes de Internet:

Un ejemplo del conjunto de datos de cronómetro cercano sintético de los investigadores, utilizado para ajustar un maniquí GPT en el nuevo trabajo. Fuente: https://huggingface.co/datasets/migonsa/analog_watches_finetune

Antiguamente de ajustar el nuevo conjunto de datos, GPT-4.1 no pudo analizar consistentemente estos relojes. Sin requisa, a posteriori de una exposición a la nueva colección, su rendimiento mejoró, pero solo cuando las nuevas imágenes parecían las que ya había pasado.

Cuando cambió la forma del cronómetro o el estilo de las manos, la precisión cayó bruscamente; Incluso los pequeños ajustes, como las manos más delgadas o las puntas de flecha (imagen más derecha a continuación), fueron suficientes para tirarlo; y GPT-4.1 luchó adicionalmente para interpretar ‘relojes de derretimiento’ de Dali:

Imágenes de cronómetro con diseño unificado (izquierda), forma distorsionada (medio) y manos modificadas (derecha), conexo con los tiempos devueltos por GPT-4.1 antiguamente y a posteriori del ajuste. Fuente: https://arxiv.org/pdf/2505.10862

Los autores deducen que los modelos actuales como GPT-4.1 pueden estar aprendiendo la recital del cronómetro principalmente a través de coincidencia de patrones visualesen superficie de cualquier concepto de tiempo más profundo, afirmando:

‘(GPT 4.1) falta cuando el cronómetro se deforma o cuando las manos se cambian para ser más delgadas y tener una punta de flecha. El error total medio (MAE) en la estimación de tiempo en 150 tiempos aleatorios fue de 232.48s para los relojes iniciales, 1380.69s cuando la forma está deformada y 3726.93s cuando las manos cambian.

«Estos resultados sugieren que el MLLM no ha aprendido a afirmar el tiempo sino los patrones memorizados».

Suficiente tiempo

La mayoría de los conjuntos de datos de capacitación se basan en imágenes web raspadas, que tienden a repetir ciertos tiempos, especialmente 10:10, una configuración popular en anuncios de relojes:

Desde el nuevo artículo, un ejemplo de la prevalencia del tiempo ‘Diez diez’ en imágenes analógicas de cronómetro.

Como resultado de este rango menguado de veces representado, el maniquí puede ver solo un rango ceñido de posibles configuraciones de cronómetro, lo que limita su capacidad para difundir más allá de esos patrones repetitivos.

LEER  AI actúa de manera diferente cuando sabe que se está probando, la investigación encuentra

En cuanto a por qué los modelos no interpretan correctamente los relojes distorsionados, el documento establece:

‘Aunque GPT-4.1 funciona excepcionalmente correctamente con las imágenes de cronómetro unificado, es sorprendente que modificar las manos del cronómetro al hacerlas más delgadas y ampliar puntas de flecha conduce a una caída significativa en su precisión.

‘Intuitivamente, uno podría esperar que el cambio visualmente más engorroso, una esfera distorsionada, tenga un anciano impacto en el rendimiento, sin requisa, esta modificación parece tener un intención relativamente pequeño.

‘Esto plantea una pregunta: ¿cómo interpretan los relojes MLLM y por qué fallan? Una posibilidad es que las manos más delgadas afecten la capacidad del maniquí para percibir la dirección, debilitando su comprensión de la orientación espacial.

«Alternativamente, podría favor otros factores que causan confusión cuando el maniquí intenta combinar las manos de la hora, el minuto y las segundas en una recital precisa del tiempo».

Los autores sostienen que identificar la causa raíz de estas fallas es esencia para avanzar en modelos multimodales: si el problema radica en cómo el maniquí percibe la dirección espacial, el ajuste fino puede ofrecer una opción simple; Pero si el problema proviene de una dificultad más amplia para integrar múltiples señales visuales, apunta a una cariño más fundamental en la forma en que estos sistemas procesan la información.

Pruebas de ajuste

Para probar si las fallas del maniquí podrían superarse con la exposición, GPT-4.1 fue justo en el conjunto de datos sintético antiguamente mencionado e integral. Antiguamente de ajustar, sus predicciones estaban ampliamente dispersas, con errores significativos en todos los tipos de relojes. A posteriori de ajustar la colección, la precisión mejoró bruscamente en las caras de cronómetro unificado y, en pequeño medida, en las distorsionadas.

Sin requisa, los relojes con manos modificadas, como formas más delgadas o puntas de flecha, continuaron produciendo grandes errores.

Surgieron dos modos de falta distintos: en relojes normales y distorsionados, el maniquí generalmente juzgaba mal la dirección de las manos; Pero en relojes con podrido estilos de manoa menudo confundía la función de cada mano, confundiendo hora para minuto o minuto para segundo.

Una comparación que ilustra la cariño original del maniquí, y las ganancias parciales logradas a través del ajuste fino, que muestra el tiempo previsto frente a positivo, en segundos, para 150 relojes seleccionados al azar. A la izquierda, antiguamente de ajustar, las predicciones de GPT-4.1 están dispersas y a menudo allí de los títulos correctos, indicados por la bisectriz diagonal roja. A la derecha, a posteriori de ajustar un conjunto de datos sintético controlado, las predicciones se alinean mucho más estrechamente con la verdad del suelo, aunque quedan algunos errores.

Esto sugiere que el maniquí había aprendido a asociar características visuales como el corpulencia de la mano con roles específicos, y luchó cuando estas señales cambiaron.

LEER  Cómo la IA de Google está desbloqueando los secretos de la comunicación de delfines

La mejoría limitada en diseños desconocidos plantea más dudas sobre si un maniquí de este tipo aprende el concepto espiritual de tiempo de tiempo o simplemente refina su coincidencia de patrones.

Señales de mano

Entonces, aunque el ajuste fino mejoró el rendimiento de GPT-4.1 en los relojes analógicos convencionales, tuvo mucho menos impacto en los relojes con manos más delgadas o formas de punta de flecha, lo que aumenta la posibilidad de que las fallas del maniquí se produjeran menos del razonamiento espiritual y más de la confusión sobre qué mano era cuál.

Para probar si la precisión podría mejorar si se eliminara esa confusión, se realizó un nuevo observación en las predicciones del maniquí para el conjunto de datos «modificado». Las expectativas se dividieron en dos grupos: casos en los que GPT-4.1 reconoció correctamente las manos de la hora, el minuto y las segundas; y casos en los que no lo hizo.

Las predicciones se evaluaron para el error total medio (MAE) antiguamente y a posteriori del ajuste fino, y los resultados en comparación con los de los relojes unificado; El error angular además se midió para cada mano utilizando la posición del dial como bisectriz de cojín:

Comparación de errores para relojes con y sin confusión de rol de mano en el conjunto de datos de mano modificada antiguamente y a posteriori del ajuste.

Confundir los roles de las manos del cronómetro condujo a los mayores errores. Cuando GPT-4.1 confundió la mano de la hora para el minuto o al contrario, las estimaciones de tiempo resultantes a menudo estaban allí. En contraste, los errores causados ​​por enjuiciar mal la dirección de una mano identificada correctamente fueron más pequeños. Entre las tres manos, la mano de la hora mostró el error angular más stop antiguamente del ajuste, mientras que la segunda mano mostró la más desestimación.

Error angular por tipo de mano para predicciones con y sin confusión de rol de mano, antiguamente y a posteriori del ajuste, en el conjunto de datos de mano modificada.

Para centrarse solo en los errores direccionales, el observación se limitó a los casos en que el maniquí identificó correctamente la función de cada mano. Si el maniquí hubiera internalizado un concepto universal de tiempo de tiempo, su rendimiento en estos ejemplos debería favor igualado su precisión en los relojes unificado. No lo hizo, y la precisión siguió siendo notablemente peor.

Para examinar si la mano forma Interferido con el sentido de dirección del maniquí, se ejecutó un segundo cuestionario: se crearon dos conjuntos de datos nuevos, cada uno que contiene sesenta relojes sintéticos con solo una hora de mano, apuntando a una marca de minuto diferente. Un conjunto usó el diseño de la mano flamante y el otro la lectura alterada. Se le pidió al maniquí que nombrara la marca de la marca a la que apuntaba la mano.

Los resultados mostraron una ligera caída en la precisión con las manos modificadas, pero no lo suficiente como para tener en cuenta las fallas más amplias del maniquí. A característica visual desconocida parecía capaz de interrumpir la interpretación universal del maniquí, incluso en tareas que había tenido un buen desempeño previamente.

Descripción universal del rendimiento de GPT-4.1 antiguamente y a posteriori del ajuste en los relojes unificado, distorsionados y modificados, destacando ganancias desiguales y debilidades persistentes.

Conclusión

Si correctamente el enfoque del documento puede parecer trivial a primera perspectiva, no importa especialmente si los modelos en idioma de visión alguna vez aprenden a analizar relojes analógicos con una precisión del 100%. Lo que da peso al trabajo es su enfoque en una pregunta recurrente más profunda: si los modelos saturantes con datos más (y más diversos) pueden conducir al tipo de dominio que entiende que los humanos adquieren a través de la meditación y la universalización; o si la única ruta viable es inundar el dominio con suficientes ejemplos para anticipar todas las variaciones posibles en inferencia.

Cualquiera de las rutas plantea dudas sobre qué arquitecturas actuales son verdaderamente capaces de instruirse.

Publicado por primera vez el lunes 19 de mayo de 2025

spot_img

Artículos relacionados

spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Últimos artículos