La concepción de recuperación aumentada (RAG) es un enfoque para construir sistemas de IA que combine un maniquí de habla con una fuente de conocimiento externa. En términos simples, la IA primero averiguación documentos relevantes (como artículos o páginas web) relacionadas con la consulta de un afortunado, y luego utiliza esos documentos para difundir una respuesta más precisa. Este método se ha celebrado por ayudar a los modelos de idiomas grandes (LLM) a mantenerse objetivos y dominar las alucinaciones al fundar sus respuestas en datos reales.
Intuitivamente, uno podría pensar que cuantos más documentos recupera una IA, mejor informado será su respuesta. Sin confiscación, investigaciones recientes sugieren un libramiento sorprendente: cuando se manejo de impulsar información a una IA, a veces menos es más.
Menos documentos, mejores respuestas
Un nuevo estudio realizado por investigadores de la Universidad Hebrea de Jerusalén exploró cómo el número de documentos dados a un sistema RAG afecta su rendimiento. De forma crucial, mantuvieron la cantidad total de texto constante, lo que significa que si se proporcionaran menos documentos, esos documentos se ampliaron levemente para guatar la misma distancia que muchos documentos lo harían. De esta forma, cualquier diferencia de rendimiento podría atribuirse a la cantidad de documentos en ocupación de simplemente tener una entrada más corta.
Los investigadores utilizaron un conjunto de datos de preguntas (musique) de preguntas con preguntas de trivia, cada uno originalmente combinado con 20 párrafos de Wikipedia (solo algunos de los cuales efectivamente contienen la respuesta, con el resto de distractores). Al recortar el número de documentos de 20 hasta solo los 2–4 verdaderamente relevantes, y acolchando a aquellos con un poco de contexto adicional para persistir una distancia consistente, crearon escenarios en los que la IA tenía menos piezas de material que considerar, pero aún así aproximadamente las mismas palabras totales para observar.
Los resultados fueron sorprendentes. En la mayoría de los casos, los modelos de IA respondieron con anciano precisión cuando se les dieron menos documentos que el conjunto completo. El rendimiento mejoró significativamente: en algunos casos en hasta un 10% en precisión (puntaje F1) cuando el sistema usó solo el puñado de documentos de soporte en ocupación de una gran colección. Este impulso contradictorio se observó en varios modelos de habla de código destapado diferentes, incluidas las variantes de Meta’s Vehemencia y otros, lo que indica que el engendro no está unido a un solo maniquí de IA.
Un maniquí (QWEN-2) fue una excepción extraordinario que manejó múltiples documentos sin una caída en la puntuación, pero casi todos los modelos probados funcionaron mejor con menos documentos en genérico. En otras palabras, juntar más material de remisión más allá de la secreto de las piezas relevantes en existencia perjudica su rendimiento con más frecuencia de lo que ayudó.
Fuente: Levy et al.
¿Por qué es esta sorpresa? Por lo genérico, los sistemas RAG están diseñados bajo el supuesto de que recuperar una franja de información más amplia solo puede ayudar a la IA; luego de todo, si la respuesta no está en los primeros documentos, podría estar en la décima o vigésimo.
Este estudio voltea ese insignia, lo que demuestra que se acumula indiscriminadamente en documentos adicionales puede ser contraproducente. Incluso cuando la distancia total del texto se mantuvo constante, la mera presencia de muchos documentos diferentes (cada uno con su propio contexto y peculiaridades) hizo que la tarea de respuesta de preguntas fuera más desafiante para la IA. Parece que más allá de cierto punto, cada documento adicional introdujo más ruido que señal, confundiendo el maniquí y afectando su capacidad para extraer la respuesta correcta.
Por qué menos puede estar más en trapo
Este resultado «menos es más» tiene sentido una vez que consideramos cómo los modelos de habla AI procesan la información. Cuando a una IA se les da solo los documentos más relevantes, el contexto que ve está enfocado y vacancia de distracciones, al igual que un estudiante a quien se le ha entregado las páginas correctas para estudiar.
En el estudio, los modelos tuvieron un rendimiento significativamente mejor cuando se administró solo los documentos de apoyo, con material irrelevante eliminado. El contexto restante no solo era más corto sino todavía más desinteresado, sino que contenía hechos que apuntaban directamente a la respuesta y carencia más. Con menos documentos para hacer malabarismos, el maniquí podría destinar toda su atención a la información pertinente, lo que hace que sea menos probable que se desvíe o se confunda.
Por otro flanco, cuando se recuperaron muchos documentos, la IA tuvo que examinar una mezcla de contenido relevante e irrelevante. A menudo, estos documentos adicionales eran «similares pero no relacionados»: pueden compartir un tema o palabras secreto con la consulta, pero en existencia no contienen la respuesta. Tal contenido puede engañar al maniquí. La IA podría desperdiciar esfuerzo tratando de conectar puntos entre documentos que en existencia no conducen a una respuesta correcta, o peor, podría fusionar información de múltiples fuentes incorrectamente. Esto aumenta el aventura de alucinaciones, casos en que la IA genera una respuesta que suena plausible pero no se sostén en una sola fuente.
En esencia, impulsar demasiados documentos al maniquí puede diluir la información útil e introducir detalles conflictivos, lo que dificulta que la IA decida qué es cierto.
Curiosamente, los investigadores encontraron que si los documentos adicionales eran obviamente irrelevantes (por ejemplo, texto imprevisible no relacionado), los modelos eran mejores para ignorarlos. El cierto problema proviene de los datos de distracción que parecen relevantes: cuando todos los textos recuperados están en temas similares, la IA supone que debe usarlos todos, y puede tener dificultades para aprender qué detalles son efectivamente importantes. Esto se alinea con la observación del estudio de que Los distractores aleatorios causaron menos confusión que los distractores realistas En la entrada. La IA puede filtrar tonterías flagrantes, pero la información sutilmente fuera del tema es una trampa resbaladiza: se cuela bajo la apariencia de relevancia y descarrila la respuesta. Al dominar el número de documentos a los verdaderamente necesarios, evitamos establecer estas trampas en primer ocupación.
Asimismo hay un beneficio práctico: recuperar y procesar menos documentos reduce la sobrecarga computacional para un sistema de trapo. Cada documento que se extrae debe analizarse (integrado, erudito y atendido por el maniquí), que utiliza el tiempo y los posibles informáticos. Eliminar documentos superfluos hace que el sistema sea más competente: puede encontrar respuestas más rápido y a beocio costo. En escenarios en los que mejoró la precisión al enfocarse en menos fuentes, obtenemos un beneficio mutuo: mejores respuestas y un proceso más delgado y competente.
Fuente: Levy et al.
Repensar trapo: instrucciones futuras
Esta nueva evidencia de que la calidad a menudo supera la cantidad en la recuperación tiene implicaciones importantes para el futuro de los sistemas de IA que dependen del conocimiento extranjero. Sugiere que los diseñadores de sistemas RAG deberían priorizar el filtrado inteligente y la clasificación de documentos sobre el bulto del gran bulto. En ocupación de obtener 100 pasajes posibles y esperar que la respuesta esté enterrada allí en algún ocupación, puede ser más sabio agenciárselas solo los mejores mucho relevantes.
Los autores del estudio enfatizan la aprieto de métodos de recuperación para «conseguir un permanencia entre relevancia y disparidad» en la información que proporcionan a un maniquí. En otras palabras, queremos proporcionar suficiente cobertura del tema para replicar a la pregunta, pero no tanto que los hechos centrales se ahogan en un mar de texto extraño.
En el futuro, es probable que los investigadores exploren técnicas que ayudan a los modelos de IA a manejar múltiples documentos con más golpe. Un enfoque es desarrollar mejores sistemas de recuperación o retornar a rankers que puedan identificar qué documentos efectivamente agregan valencia y cuáles solo introducen conflictos. Otro ángulo es mejorar los modelos de habla en sí mismo: si un maniquí (como Qwen-2) lograra hacer frente a muchos documentos sin perder precisión, examinar cómo fue capacitado o estructurado podría ofrecer pistas para hacer que otros modelos sean más robustos. Quizás los futuros modelos de habla egregio incorporen mecanismos para examinar cuándo dos fuentes dicen lo mismo (o contradicen entre sí) y se centran en consecuencia. El objetivo sería permitir que los modelos utilicen una rica variedad de fuentes sin caer presa de confusión, obteniendo lo mejor de entreambos mundos (amplitud de información y claridad de enfoque).
Asimismo vale la pena señalar que a medida que los sistemas de IA obtienen ventanas de contexto más grandes (la capacidad de observar más texto a la vez), simplemente descargar más datos en el aviso no es una bala de plata. El contexto más egregio no significa automáticamente una mejor comprensión. Este estudio muestra que incluso si una IA puede observar técnicamente 50 páginas a la vez, darle 50 páginas de información de calidad mixta puede no dar un buen resultado. El maniquí aún se beneficia de poseer curado el contenido relevante para trabajar, en ocupación de un vertedero indiscriminado. De hecho, la recuperación inteligente puede volverse aún más crucial en la era de las ventanas de contexto titán, para certificar que la capacidad adicional se use para un conocimiento valioso en ocupación del ruido.
Los hallazgos de «Más documentos, la misma distancia» (El documento titulado) fomenta un reexamen de nuestras suposiciones en la investigación de IA. A veces, impulsar a una IA todos los datos que tenemos no es tan efectivo como pensamos. Al centrarnos en las piezas de información más relevantes, no solo mejoramos la precisión de las respuestas generadas por IA, sino que todavía hacemos que los sistemas sean más eficientes y más fáciles de echarse en brazos. Es una clase contraintuitiva, pero una con ramificaciones emocionantes: los sistemas de trapo futuros pueden ser tanto más inteligentes como más delgados al nominar cuidadosamente menos y mejores documentos para recuperar.