16.6 C
Madrid
miércoles, octubre 22, 2025
spot_img
spot_img

¡Descarga más etiquetas! ‘ Ilusión en la investigación de IA

Una visión popular en la investigación flagrante de educación necesario es que el educación necesario en sí mismo puede estar de moda para mejorar la calidad de las anotaciones del conjunto de datos de IA, particularmente los subtítulos de imagen destinados a su uso en modelos de idioma de visión (VLMS). Esta segmento de pensamiento está impulsada por el detención costo de la anotación humana y la carga adicional de supervisar el rendimiento del anotador.

Podría decirse que este es el equivalente de IA del meme de descarga de más ram ‘de principios de la lapso de 2000, que satirizó la noticia de que una límite de hardware podría resolverse con una posibilidad basada en software.

Además es un problema poco considerado; Si acertadamente los nuevos modelos de IA atraen una atención generalizada en las esferas públicas y comerciales, la anotación a menudo parece ser un detalle trivial en las tuberías de educación necesario, eclipsada por la emoción que rodea marcos más amplios.

En verdad, la capacidad de los sistemas de educación necesario para buscar y reproducir patrones (el caso de uso central de casi todos los sistemas de IA) depende de la calidad y consistencia de las anotaciones del mundo positivo: etiquetas y frases creadas o adjudicadas por personas reales, a menudo haciendo juicios subjetivos sobre los puntos de datos individuales en circunstancias no ideales.

Inevitablemente, los sistemas que buscan observar y reproducir patrones en el comportamiento del anotador (y, por lo tanto, reemplazar a los anotadores humanos y entregar el etiquetado preciso a escalera) no pueden esperar tener un buen desempeño en los datos no contenido en los ejemplos tomados de observadores humanos. Mínimo ‘similar’ es lo mismo, y la equivalencia de dominio cruzado sigue siendo una búsqueda problemática en la visión por computadora.

El «dólar de datos aguas en lo alto» tiene que detenerse en algún lado, y en este caso, ahí es exactamente donde se detiene, con un cerebelo humano que hace algún tipo de distinción subjetiva para codificar datos para un sistema industrial.

El comercio de trapo

Hasta hace poco, las inexactitudes derivadas de las anotaciones de conjunto de datos subestimadas se consideraban, tal vez como daños colaterales aceptables en el contexto de los resultados imperfectos pero aún comercializables obtenidos de los sistemas de IA generativos.

De hecho, solo este año, un estudio de Singapur concluyó que las alucinaciones, es asegurar, las ocasiones en que los sistemas de IA inventan cosas que socavan nuestras intenciones, son inevitables y están obligados a la construcción conceptual de tales sistemas.

Para contrarrestar esto, los agentes basados ​​en RAG, que pueden ‘comprobar’ los hechos a través de las búsquedas en Internet, se están volviendo populares en la investigación y aplicar soluciones comerciales. Sin retención, se suman al costo de bienes y a la latencia en consultas; Encima, la información novedosa aplicada a un maniquí capacitado no puede competir con las conexiones más intrincadas y profundamente interesadas que caracterizan las capas nativas en un maniquí entrenado.

LEER  Transformando el rendimiento de LLM: cómo el marco de evaluación automatizado de AWS lidera el camino

Por lo tanto, sería mejor si los datos de anotación que informan estos modelos fueron significativamente menos defectuosos en primer lado, incluso si no puede ser valentísimo (no menos importante porque esta actividad invade el ámbito de la subjetividad humana).

Repope

Un nuevo artículo de Alemania destaca los problemas que surgen de entregarse en manos en conjuntos de datos más antiguos y ampliamente utilizados, centrándose en particular en la precisión y confiabilidad de sus subtítulos de imagen. Los hallazgos de los investigadores sugieren que los errores de formalidad en los puntos de remisión pueden tapar o tergiversar la fascinación en los modelos en idioma de visión.

Desde el nuevo artículo, algunos ejemplos en los que los subtítulos originales no lograron identificar correctamente los objetos en el conjunto de datos MSCOCO de imágenes. La revisión manual de los investigadores del conjunto de datos de remisión del Papa aborda estas deficiencias, lo que demuestra el costo de guardar boleto en la curación de anotaciones. Fuente: https://arxiv.org/pdf/2504.15707

Imagine que se le muestra a un maniquí una imagen de una imagen de la calle y se le pregunta si hay una bici en ella. El maniquí avala . Si el conjunto de datos de remisión dice que no hay bici, el maniquí está traumatizado erróneo. Pero si una bici es claramente visible En la imagen, y simplemente se perdió durante la anotación, entonces la respuesta del maniquí fue correcta y el punto de remisión ha fallado. Errores como este pueden acumularse en un conjunto de datos, dando una imagen distorsionada de qué modelos son precisos y cuáles son propensos a la fascinación.

Por lo tanto, cuando las anotaciones incorrectas o ambiguas se tratan como verdad terráqueo, los modelos pueden parecer alucinados cuando son correctos, o de lo contrario parecen precisas cuando no lo son, distorsionando tanto la medición de la fascinación como la clasificación del rendimiento del maniquí, y dificultar el diagnosis o chocar el problema con certeza.

El nuevo artículo revisa un punto de remisión ampliamente utilizado llamado Evaluación de escarbado de objetos basado en la pesquisa (POPE), que prueba si los modelos en idioma de visión pueden asegurar correctamente qué está o no en una imagen.

Pope se plinto en etiquetas del influyente Microsoft Coco: objetos comunes en el conjunto de datos de contexto (MSCOCO), una colección de imágenes anotadas que durante mucho tiempo ha sido tratada como ofreciendo un buen nivel de precisión de la anotación.

Pope evalúa la fascinación de objetos en modelos de idioma de visión ínclito al retornar a replantear el problema como una tarea de clasificación binaria. En lado de analizar subtítulos, el sistema plantea simple si/no Preguntas al maniquí sobre si los objetos específicos están presentes en una imagen, utilizando plantillas como ‘Hay una .

Ejemplos de fascinación de objetos en modelos en idioma de visión. Las etiquetas en negrita indican objetos marcados como presentes en las anotaciones originales, mientras que las etiquetas rojas muestran objetos alucinados por los modelos. El ejemplo izquierdo refleja una evaluación tradicional basada en la instrucción, mientras que los tres ejemplos a la derecha se extraen de diferentes variantes de remisión del Papa. Fuente: https://aclanthology.org/2023.emnlp-main.20.pdf

Objetos de verdad en tierra (respuesta: ) se combinan con objetos inexistentes muestreados (respuesta: No), preferido por fortuito, frecuente (popular), o co-ocurrencia (basado en la ocurrencia (adversario) Estrategias. Esta configuración permite una evaluación más estable e insensible a la inmediato de la fascinación sin entregarse en manos en un exploración arduo de subtítulos basados ​​en reglas.

LEER  Fijación de la comprensión limitada de los modelos de difusión de los espejos y reflexiones

Los autores del nuevo artículo, titulado Repopite: impacto de los errores de anotación en el punto de remisión del Papa – Desafíe la precisión supuesta de Pope al retornar a comprobar las etiquetas en las imágenes del punto de remisión (es asegurar, MSCOCO), y descubrir que un número sorprendente es incorrecto o poco claro.

Ejemplos del conjunto de datos MSCOCO 2014. Fuente: https://arxiv.org/pdf/1405.0312

Estos errores cambian la forma en que se clasifican los modelos, y algunos que inicialmente se desempeñaron acertadamente se retrasaron cuando se juzgaron contra las etiquetas corregidas.

En las pruebas, los autores evaluaron una escala de modelos en idioma de visión de peso descubierto tanto en el punto de remisión del Papa innovador como en su rehacer Repope traducción.

Según el documento, las anotaciones corregidas condujeron a cambios notables en las clasificaciones de modelos, particularmente en las puntuaciones F1, con varios modelos de detención rendimiento bajo el Papa que caen en posición bajo Repope.

Los autores sostienen que este cambio ilustra la medida en que los errores de anotación pueden oscurecer el comportamiento de fascinación positivo de los modelos, y presentan el repope como una utensilio más confiable para evaluar la vulnerabilidad de la fascinación.

En otro ejemplo del nuevo documento, vemos cómo los subtítulos del Papa innovador no pueden discernir objetos sutiles, como una persona sentada pegado a la cabina de un tranvía en la foto más a la derecha, o la apero oscurecida por el deportista de tenis en la segunda foto desde la izquierda.

Método y pruebas

Los investigadores volvieron a etiquetar todas las anotaciones en el conjunto de datos MSCOCO innovador, con dos etiquetadores humanos asignados a cada instancia de datos. Donde surgió la doble sentido en cuanto a la calidad de las etiquetas originales (como en los ejemplos a continuación), estos resultados se apartaron de la ronda de pruebas.

Casos ambiguos, donde las inconsistencias de etiquetado en el Papa reflejan límites de categoría poco claros. Por ejemplo, un oso de peluche etiquetado como un oso, una motocicleta como bici o vehículos de aeropuerto como automóviles. Estos casos fueron excluidos de Repope oportuno a la naturaleza subjetiva de tales clasificaciones, así como las inconsistencias en las etiquetas originales de MSCOCO.

El documento dice:

‘Los anotadores originales perdieron a las personas en el fondo o detrás del vidrio, el deportista de tenista ocluye las’ sillas ‘en el fondo y la ensalada de cole contiene solo una pequeña franja visible de zanahoria.

‘Para algunos objetos, las anotaciones de Coco son muy inconsistentes probablemente oportuno a las diferentes definiciones de los objetos utilizados por los anotadores originales. La clasificación de un ‘oso de peluche’ como un ‘oso’, una motocicleta como una ‘bici’ motorizada o un transporte del aeropuerto como ‘automóvil’ depende de definiciones específicas, lo que lleva a inconsistencias en las anotaciones de la verdad del Pope Ground. Por lo tanto, anotamos los pares de preguntas de imagen correspondientes como «ambiguo».

Resultados de la reanotación: las preguntas positivas se comparten en las tres variantes del Papa. Entre los etiquetados ‘Sí’ en el Papa, se encontró que el 9.3 por ciento era incorrecto y el 13.8 por ciento se clasificó como ambiguo. Para las preguntas ‘no’, el 1,7 por ciento no se etiquetaron y el 4,3 por ciento eran ambiguos.

Los autores evaluaron una escala de modelos de peso descubierto en Pope y Repope, en diversas arquitecturas y tamaños de modelos. Los modelos elegidos incluyeron algunas de las arquitecturas principales en la tabla de clasificación OpenVLM: Internvl2.5 (8B/26B/38B/78B y 8B-MPO/26B-MPO); Llava-next; Vicuna; Mistral 7b; Flama; Llava-Anevision; OVIS2 (1B/2B/4B/8B); Paligemma-3b; y Paligemma2 (3B/10B).

Resultados iniciales: la suscripción tasa de error en las etiquetas positivas originales conduce a una cachas caída en los verdaderos positivos en todos los modelos. Los falsos positivos varían entre los subconjuntos, casi duplicando el subconjunto fortuito, pero permanecen en gran medida sin cambios en el subconjunto popular, y muestran una ligera disminución en el subconjunto adversario. El relanzamiento tiene un impacto importante en las clasificaciones basadas en F1. Modelos como OVIS2-4B y OVIS2-8B, que se desempeñaron acertadamente en las divisiones populares y adversas en el Papa, además se elevan a la parte superior en el subconjunto fortuito en Repope. Consulte el PDF de origen para una mejor resolución.

Los gráficos de resultados anteriores ilustran cómo cambia el número de verdaderos positivos y falsos positivos a posteriori de corregir las etiquetas en el punto de remisión.

LEER  ¿Puede Ai resolver la epidemia de soledad?

Los verdaderos aspectos positivos cayeron en todos los modelos, lo que demuestra que a menudo se les acreditaba las respuestas correctas cuando esas respuestas solo eran correctas bajo etiquetas defectuosas, mientras que los falsos positivos siguieron un patrón más variado.

En la traducción ‘aleatoria’ de Pope, falsos positivos casi duplicado Para muchos modelos, lo que indica que un número significativo de objetos marcados como alucinaciones en realidad estaban presentes en las imágenes, pero se había perdido en las anotaciones originales. En este caso, muchos supuestos errores del maniquí fueron, de hecho, los errores de etiquetado del conjunto de datos.

Para la traducción ‘adversaria’ de Pope, donde las preguntas se basaban en objetos que con frecuencia co-o concurren, los falsos positivos disminuyeron. Esto probablemente refleja una veterano posibilidad de que el objeto supuestamente escaso fuera en ingenuidad en la imagen Pero a la izquierda no etiquetado.

Aunque estos cambios afectaron la precisión y el remembranza, las clasificaciones de modelos se mantuvieron relativamente estables para ambas métricas.

La puntuación F1, la principal medida de evaluación del Papa, era mucho más sensible a las correcciones de la formalidad. En el subconjunto fortuito, los modelos que se clasificaron cerca de la parte superior debajo de las etiquetas originales, como Internvl2.5-8b y -26b, cayeron a la parte inferior cuando se puntuaron con Repope. Otros, como OVIS2-4B y -8B, subieron a la cima.

Un patrón similar surgió en los puntajes de precisión, aunque los autores señalan que ahora pueden estar sesgados, ya que el conjunto de datos corregido contiene un número desigual de ejemplos positivos y negativos.

Los autores argumentan que el cachas impacto de los errores de anotación en los resultados de remisión subraya la exigencia de datos de suscripción calidad. Para apoyar la evaluación más confiable de la fascinación de objetos, han enérgico las etiquetas corregidas en GitHub.

Sin retención, señalan que este dimisión no aborda completamente la saturación del punto de remisión, ya que muchos modelos aún logran tasas negativas positivas y verdaderas superiores y verdaderas superiores al 90%. Sugieren que los puntos de remisión adicionales, como Dash-B, que utiliza un conjunto más desafiante de ejemplos negativos, deben estar de moda pegado con Repope.

Conclusión

Este experimentación particular fue posible oportuno a la muy pequeña escalera del conjunto de datos involucrado. Probar la misma hipótesis en los conjuntos de datos de hiperescala implicaría trabajar en fragmentos muy limitados de los datos; En grandes conjuntos de datos en extremo diversos, podría resultar casi inverosímil aislar agrupaciones estadísticamente representativas y semánticamente coherentes, potencialmente sesgando los resultados.

Incluso si fuera posible, ¿qué remedio habría bajo el estado flagrante? El argumento vuelve inevitablemente en dirección a la exigencia de una mejor y más copioso anotación humana.

En este sentido, ‘mejor’ y ‘más copioso’ existen como problemas separados por derecho propio, ya que uno puede obtener un veterano convexidad de anotaciones a través de economías de raza a fondo como Amazon Mechanical Turk (AMT). Obviamente, esta subconomía potencialmente explotadora con frecuencia conduce a resultados inferiores.

Alternativamente, uno podría cultivar tareas de anotación a las regiones económicas donde el mismo desembolso produciría una veterano cantidad de anotaciones. Sin retención, cuanto más se elimine el anotador es del caso de uso previsto del maniquí que se dará forma a sus etiquetas, menos probable es que el maniquí resultante se alinee con las deyección o expectativas del dominio objetivo.

Por lo tanto, este sigue siendo uno de los desafíos más persistentes y no resueltos en la riqueza del ampliación del educación necesario.

Publicado por primera vez el miércoles 23 de abril de 2025

spot_img

Artículos relacionados

spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Últimos artículos