Un nuevo artículo de Microsoft Research and Salesforce encuentra que incluso los modelos de idiomas grandes (LLM) más capaces se desmoronan cuando se dan instrucciones en etapas en circunscripción de todo a la vez. Los autores encontraron que el rendimiento cae en un promedio de 39 por ciento en seis tareas cuando un aviso es dividido en múltiples vueltas:
Una conversación de solo turno (izquierda) obtiene los mejores resultados, pero no es natural para el legatario final. Una conversación de múltiples vueltas (derecha) encuentra incluso los LLM más altos y más actuados que pierden el ímpetu efectivo en una conversación. Fuente: https://arxiv.org/pdf/2505.06120
Más sorprendentemente, el fiabilidad de las respuestas requiere una pisada, con prestigiosos modelos como ChatGPT-4.1 y Gemini 2.5 Pro balanceándose entre respuestas casi perfectas y fallas manifiestas, dependiendo de cómo se reduzca la misma tarea; Encima, la consistencia de salida puede disminuir en más de la medio en el proceso.
Para explorar este comportamiento, el documento presenta un método llamado fragmento*, que divide las indicaciones completamente especificadas en fragmentos más pequeños y los libera uno a la vez en una conversación.
En los términos más básicos, esto es equivalente a dar un orden único cohesivo e integral en un restaurante, dejando al camarero sin cero que hacer más que registrar la solicitud; o de lo contrario animarse atacar el asunto en colaboración:
Dos versiones extremas de una conversación en un restaurante (no del nuevo artículo, solo para fines ilustrativos).
Para acentuar, el ejemplo mencionado quizás ponga al cliente en una luz negativa. Pero la idea central representada en la segunda columna es la de un intercambio transaccional que aclara un conjunto de problemas, antaño de asaltar los problemas, aparentemente una forma racional y comprensible de asaltar una tarea.
Esta configuración se refleja en el alimentado por destilación del nuevo trabajo, fragmentado Enfoque para la interacción LLM. Los autores señalan que los LLM a menudo generan respuestas demasiado largas y luego continúan confiando en sus propias ideas. Incluso posteriormente de que esas ideas se hayan demostrado ser incorrectas o irrelevantes. Esta tendencia, combinada con otros factores, puede hacer que el sistema pierda el rastreo del intercambio por completo.
De hecho, los investigadores señalan lo que muchos de nosotros hemos enfrentado anecdóticamente, que la mejor modo de retornar a dirigir la conversación es comenzar una nueva conversación con el LLM.
‘Si una conversación con un LLM no condujo a los resultados esperados, comenzar una nueva conversación que repita la misma información podría producir resultados significativamente mejores que continuar una conversación continua.
‘Esto se debe a que los LLM actuales pueden perderse en la conversación, y nuestros experimentos muestran que persistir en una conversación con el maniquí es ineficaz. Encima, entregado que los LLM generan texto con aleatoriedad, una nueva conversación puede conducir a mejores resultados.
Los autores reconocen que los sistemas de agente como Autógen o Langchain pueden mejorar potencialmente los resultados al comportarse como capas interpretativas entre el usador final y el LLM, solo comunicándose con el LLM cuando se han reunido suficientes respuestas ‘desguridas’ para coagular en una sola consulta cohesiva (a la que no se expondrá el legatario final).
Sin confiscación, los autores sostienen que no debe ser necesaria una capa de contemplación separada, o de lo contrario, construirse directamente en la fuente LLM:
‘Se podría argumentar que las capacidades de múltiples vueltas no son una característica necesaria de los LLM, ya que se puede descargar al entorno del agente. En otras palabras, ¿necesitamos soporte múltiple nativo en LLM cuando un entorno de agente puede orquestar interacciones con los usuarios y disfrutar los LLM solo como operadores de un solo cambio? … ‘
Pero posteriormente de poseer probado la propuesta en su variedad de ejemplos, concluyen:
‘(Encargar) en un entorno similar al agente para procesar la información podría ser limitante, y argumentamos que los LLM deberían amparar de forma nativa la interacción múltiple’
Este nuevo artículo interesante se titula LLMS se pierde en una conversación múltipley proviene de cuatro investigadores en la EM Investigación y Salesforce,
Conversaciones fragmentadas
El nuevo método primero desglosa las instrucciones convencionales de una sola reverso en fragmentos más pequeños, diseñados para introducirse en momentos secreto durante una interacción LLM, una estructura que refleja el estilo exploratorio de compromiso de ida y reverso que se ve en sistemas como ChatGPT o Google Gemini.
Cada instrucción diferente es un mensaje único y autónomo que ofrece toda la tarea de una sola vez, combinando una pregunta de suspensión nivel, un contexto de apoyo y cualquier condición relevante. La interpretación fragmentada divide esto en múltiples partes más pequeñas, con cada fragmento agregando solo una información:
Instrucciones emparejadas que muestran (a) un aviso completo entregado en un solo turno y (b) su interpretación fragmentada utilizada para fingir una interacción subestimada y múltiple. Semánticamente, cada interpretación ofrece la misma carga útil informativa.
El primer fragmento siempre presenta el objetivo principal de la tarea, mientras que el resto proporciona detalles de nota. Juntos, ofrecen el mismo contenido que el aviso diferente, pero se extienden lógicamente durante varios turnos en la conversación.
Cada conversación simulada desarrolla entre tres componentes: el asistente, el maniquí bajo evaluación; el legatario, un agente simulado con llegada a la instrucción completa en forma fragmentada; y el sistemaque vigila y anota el intercambio.
La conversación comienza con el legatario que revela el primer fragmento y el asistente que asegura autónomamente. El sistema luego clasifica esa respuesta en una de varias categorías, como un solicitud de nota o intento de respuesta completa.
Si el maniquí hace Intente una respuesta, un componente separado extrae solo el tramo relevante para la evaluación, ignorando cualquier texto circundante. En cada nuevo turno, el legatario revela un fragmento adicional, lo que provoca otra respuesta. El intercambio continúa hasta que el maniquí obtenga la respuesta correcta o no quedan fragmentos para revelar:
Diagrama de una simulación de conversación fragmentada, con el maniquí evaluado resaltado en rojo.
Las primeras pruebas mostraron que los modelos a menudo preguntaban sobre información que aún no se había compartido, por lo que los autores dejaron la idea de revelar fragmentos en un orden fijo. En cambio, se usó un simulador para animarse qué fragmento revelar a continuación, en función de cómo iba la conversación.
Por lo tanto, el simulador de legatario, implementado con GPT-4O-Mini, recibió llegada completo tanto a toda la instrucción como al historial de conversación, encargado de animarse, en cada turno, que Shard para revelar a continuación, en función de cómo se desarrollaba el intercambio.
El simulador de legatario incluso reformado Cada fragmento para nutrir el flujo de conversación, sin alterar el significado. Esto permitió que la simulación reflejara la «toma y toma» del diálogo verdadero, al tiempo que preservaba el control sobre la estructura de la tarea.
Antaño de que comience la conversación, el asistente solo recibe la información básica necesaria para completar la tarea, como un esquema de saco de datos o una narración de API. No se dice que las instrucciones se romperán, y no se breviario cerca de ninguna forma específica de manejar la conversación. Esto se hace premeditadamente: en el uso del mundo verdadero, los modelos casi nunca se les dice que un aviso estará incompleto o actualizado con el tiempo, y dejar de costado este contexto ayuda a la simulación a reverberar cómo se comporta el maniquí en un contexto más realista.
GPT-4O-Mini incluso se usó para animarse cómo se deben clasificar las respuestas del maniquí y para extraer cualquier respuesta final de esas respuestas. Esto ayudó a la simulación a mantenerse flexible, pero introdujo errores ocasionales: sin confiscación, posteriormente de realizar varios cientos de conversaciones a mano, los autores encontraron que menos del cinco por ciento tenían problemas, y menos del dos por ciento mostraron un cambio en el resultado oportuno a ellos, y consideraron que esto era una tasa de error lo suficientemente pérdida interiormente de los parámetros del tesina.
Escenarios de simulación
Los autores utilizaron cinco tipos de simulación para probar el comportamiento del maniquí en diferentes condiciones, cada uno es una variación de cómo y cuándo se revelan partes de la instrucción.
En el Empachado Configuración, el maniquí recibe toda la instrucción en un solo turno. Esto representa el formato de narración estereotipado y sirve como la partidura de saco de rendimiento.
El Fragmentado La configuración divide la instrucción en múltiples piezas y las entrega una a la vez, simulando una conversación más realista y subspecificada. Esta es la configuración principal utilizada para probar qué tan perfectamente los modelos manejan la entrada de múltiples vueltas.
En el Concatismo Configuración, los fragmentos se unen como una sola repertorio, preservando su redacción pero eliminando la estructura de libranza a libranza. Esto ayuda a aislar los bienes de la fragmentación conversacional de la reformulación o la pérdida de contenido.
El Recopilación La configuración se ejecuta como Fragmentadopero agrega un libranza final donde se reformulan todos los fragmentos anteriores antaño de que el maniquí le dé una respuesta final. Esto prueba si un aviso de esquema puede ayudar a recuperar el contexto perdido.
Finalmente, Camelo de cocaína va más allá, repitiendo Todos los fragmentos anteriores en cada pasomanteniendo la instrucción completa visible a medida que se desarrolla la conversación y ofrece una prueba más indulgente de tacto múltiple.
Tipos de simulación basados en instrucciones fragmentadas. Un aviso completamente especificado se divide en partes más pequeñas, que luego se pueden usar para fingir conversaciones de libranza único (completo, concat) o múltiple (fragmentación, compendio, camelo de cocaína), dependiendo de qué tan rápido se revela la información.
Tareas y métricas
Se eligieron seis tareas de vivientes para cubrir tanto la programación como los dominios del habla natural: las indicaciones de vivientes de código se tomaron de Humaneval y LivecodeBench; Las consultas de texto a SQL se obtuvieron de Spider; Las llamadas de API se construyeron utilizando datos de la función de calificación de la función de Berkeley; Los problemas matemáticos elementales fueron proporcionados por GSM8K; Las tareas de subtítulos tabulares se basaron en el totto; y se extrajeron resúmenes de documentos múltiples del esquema de un conjunto de datos Haystack.
El rendimiento del maniquí se midió utilizando tres métricas centrales: rendimiento promedio, aptitudy no responsabilidad.
Rendimiento promedio capturó lo perfectamente que lo hizo un maniquí en común en múltiples intentos; aptitud reflejó los mejores resultados que un maniquí podría alcanzar, en función de sus expectativas de puntuación superior; y no responsabilidad Medió cuánto variaron esos resultados, con mayores brechas entre los mejores y peores resultados que indican un comportamiento menos estable.
Todos los puntajes se colocaron en una escalera de 0-100 para avalar la consistencia en las tareas y las métricas calculadas para cada instrucción, y luego se promediaron para proporcionar una imagen común del rendimiento del maniquí.
Seis tareas fragmentadas utilizadas en los experimentos, que cubren tanto la programación como la vivientes de habla natural. Cada tarea se muestra con una instrucción completamente especificada y su interpretación fragmentada. Entre 90 y 120 instrucciones se adaptaron de los puntos de narración establecidos para cada tarea.
Contendientes y pruebas
En las simulaciones iniciales (con un costo estimado de $ 5000), 600 instrucciones que abarcaban seis tareas fueron fragmentadas y utilizadas para fingir tres tipos de conversación: saciado, concatismoy fragmentado. Para cada combinación de maniquí, instrucción y tipo de simulación, se ejecutaron diez conversaciones, produciendo más de 200,000 simulaciones en total, un esquema que permitió capturar tanto el rendimiento común como las medidas más profundas de aptitud y confiabilidad.
Se probaron quince modelos, abarcando una amplia tonalidad de proveedores y arquitecturas: los modelos OpenAI GPT-4O (interpretación 2024-11-20), GPT-4O-Mini (2024-07-18), GPT-4.1 (2025-04-14) y el maniquí de pensamiento O3 (2025-04-04-16).
Los modelos antrópicos fueron Claude 3 Haiku (2024-03-07) y el soneto Claude 3.7 (2025-02-19), accedido a través de Amazon Bedrock.
Google contribuyó con Gemini 2.5 Flash (Horizonte previa-04-17) y Gemini 2.5 Pro (Horizonte previa-03-25). Los Meta Models fueron Pira 3.1-8B-Instructo y Pira 3.3-70B-Instructo, así como Pira 4 Scout-17B-16E, a través de AI juntos.
Las otras entradas fueron Olmo 2 13b, Phi-4 y Command-A, todas accedidas localmente a través de Ollama o API de Cohere; y Deepseek-R1, accedido a través de Amazon Bedrock.
Para los dos modelos de «pensamiento» (O3 y R1), los límites de tokens se elevaron a 10,000 para acomodar cadenas de razonamiento más largas:
Puntajes de rendimiento promedio para cada maniquí en seis tareas: código, saco de datos, acciones, datos a texto, matemáticas y esquema. Los resultados se muestran para tres tipos de simulación: completos, concat y fragmentos. Los modelos se ordenan por su puntaje promedio de establecimiento completo. El sombreado refleja el porción de caída de rendimiento desde la configuración completa, con las dos columnas finales que informan disminuciones promedio de concat y fragmentos en relación con el completo.
Con respecto a estos resultados, los autores indican†:
‘A un suspensión nivel, Cada maniquí ve que su rendimiento se degrada en cada tarea al comparar un rendimiento completo y fiscadocon una degradación promedio de -39%. Nombramos este engendro Perdido en la conversación: Modelos que logran un rendimiento astral (90%+) en la configuración de laboratorio de lucha de conversación de un solo cambio En exactamente las mismas tareas en un entorno más realista cuando la conversación está subestimada y de múltiples vueltas.
Concatismo Las puntuaciones promediaron el 95 por ciento de saciadoindicando que la caída de rendimiento en la configuración fragmentada no puede interpretar por la pérdida de información. Modelos más pequeños como Llama3.1-8b-Instructo, OLMO-2-13B y Claude 3 Haiku mostraron una degradación más pronunciada bajo concatismosugiriendo que los modelos más pequeños son generalmente menos robustos para la reformulación que los más grandes.
Los autores observan†:
‘Asombrosamente, Los modelos más performantes (soneto Claude 3.7, Gemini 2.5, GPT-4.1) se pierden igualmente en una conversación en comparación con modelos más pequeños (Llama3.1-8b-Instructo, PHI-4), con degradaciones promedio del 30-40%. Esto se debe en parte a las definiciones métricas. Poliedro que los modelos más pequeños logran puntajes absolutos más bajos en LLENOtienen menos repercusión para la degradación que los mejores modelos.
«En esquema, no importa cuán esforzado sea el rendimiento de un solo cambio de LLM, observamos degradaciones de gran rendimiento en el entorno múltiple».
La prueba auténtico indica que algunos modelos se mantuvieron mejor en tareas específicas: Command-A en acciones, soneto Claude 3.7 y GPT-4.1 en el código; y Gemini 2.5 Pro en datos a texto, lo que indica que la capacidad de libranza múltiple varía según el dominio. Los modelos de razonamiento como O3 y Deepseek-R1 no les fue mejor en común, tal vez porque sus respuestas más largas introdujeron más suposiciones, lo que tendió a confundir la conversación.
Fiabilidad
La relación entre aptitud y confiabilidad, clara en simulaciones de un solo cambio, parecía desmoronarse en condiciones de múltiples vueltas. Mientras que la aptitud disminuyó solo modestamente, la desliz de fiabilidad duplicado de término medio. Los modelos que eran estables en indicaciones de formato completo, como GPT-4.1 y Gemini 2.5 Pro, se volvieron tan erráticos como modelos más débiles como Llama3.1-8b-Instructo o OLMO-2-13B una vez que la instrucción se fragmentó.
Descripción común de la aptitud y la desliz de fiabilidad como se muestra en un diagrama de caja (a), seguido de resultados de confiabilidad de experimentos con quince modelos (b), y los resultados de la prueba de fragmento continuo donde las instrucciones se dividieron en uno a ocho fragmentos (c).
Las respuestas del maniquí a menudo variaban hasta 50 puntos en la misma tarea, incluso cuando no se agregó cero nuevo, lo que sugiere que la caída en el rendimiento no se debió a la desliz de tacto, sino que el maniquí se volvió cada vez más inestable en todas las curvas.
El documento dice†:
‘(Aunque) mejores modelos tienden a tener una aptitud múltiple tenuemente más reincorporación, todos los modelos tienden a tener niveles similares de desliz de fiabilidad. En otras palabras, En la configuración de múltiples vueltas y especificados, todos los modelos que probamos exhiben una desliz de fiabilidad muy reincorporación, con un rendimiento de degradación del 50 por ciento en promedio entre la mejor y la peor ejecución simulada para una instrucción fija. ‘
Para probar si la degradación del rendimiento estaba vinculada al número de turnos, los autores realizaron un investigación de fragmentación continuo, dividiendo cada instrucción en uno a ocho fragmentos (ver la columna más derecha en la imagen mencionado).
A medida que aumentó el número de fragmentos, la desliz de fiabilidad aumentó constantemente, confirmando que Incluso los aumentos menores a su vez el recuento hizo que los modelos fueran más inestables. La aptitud permaneció en su mayoría sin cambios, reforzando que el problema radica en consistenciano capacidad.
Control de temperatura
Un conjunto separado de experimentos probó si la desliz de fiabilidad era simplemente un subproducto de la aleatoriedad. Para hacer esto, los autores variaron la configuración de temperatura tanto del asistente como del simulador de legatario en tres títulos: 1.0, 0.5 y 0.0.
En formatos de una sola reverso como saciado y concatismoresumir la temperatura del asistente mejoró significativamente la confiabilidad, reduciendo la variación hasta en un 80 por ciento; Pero en el fragmentado configuración, la misma intervención tuvo poco sorpresa:
Los puntajes de desliz de fiabilidad para diferentes combinaciones de asistente y temperatura del legatario en configuraciones completas, concatidas y fragmentadas, con títulos más bajos que indican una veterano consistencia de respuesta.
Incluso cuando tanto el asistente como el legatario se establecieron a temperatura cero, la desliz de fiabilidad se mantuvo reincorporación, con GPT-4O mostrando una variación de en torno a del 30 por ciento, lo que sugiere que la inestabilidad observada en las conversaciones múltiples no es solo un ruido casual, sino una amor estructural en cómo los modelos manejan la entrada fragmentada.
Trascendencia
Los autores escriben sobre las implicaciones de sus hallazgos con una duración inusual en la conclusión del documento, argumentando que un esforzado rendimiento de un solo cambio no garantiza la confiabilidad múltiple y la advertencia contra la relación excesiva en los puntos de narración completamente especificados al evaluar la preparación del mundo verdadero (desde que tales puntos de narración enmascaran la inestabilidad en interacciones más naturales y fragmentadas).
Igualmente sugieren que la desliz de fiabilidad no es solo un artefacto de muestreo, sino un acotación fundamental En cómo los modelos actuales procesan la entrada en desarrollo, y sugieren que esto plantea preocupaciones para los marcos de agentes, que dependen del razonamiento sostenido en los giros.
Finalmente, argumentan que la capacidad múltiple debe tratarse como una capacidad central de LLM, no poco descargado a sistemas externos.
Los autores señalan que sus resultados probablemente subestimar La verdadera escalera del problema y pulsar la atención sobre las condiciones ideales de la prueba: el simulador de legatario en su configuración tenía llegada completo a la instrucción y podía revelar fragmentos en un orden magnífico, lo que le dio al asistente un contexto irrealmente conveniente (en uso del mundo verdadero, los usuarios a menudo proporcionan indicaciones fragmentadas o ambiguas sin enterarse qué debe escuchar el maniquí a continuación).
Encima, el asistente fue evaluado inmediatamente Luego de cada turno, antaño de que se desarrollara la conversación completa, evitando que la confusión posterior o la autocontradicción sean penalizadas, lo que de otro modo empeoraría el rendimiento. Estas opciones, aunque son necesarias para el control empírico, significan que las brechas de confiabilidad observadas en la praxis probablemente sean aún mayores que las reportadas.
Concluyen:
‘(Nosotros) creemos que las simulaciones realizadas representan un campo de pruebas benignas para las capacidades de múltiples vueltas LLM. Adecuado a las condiciones de simulación excesivamente simplificadas, creemos que la degradación observada en los experimentos es probablemente una subestimación de la desliz de fiabilidad de LLM, y con qué frecuencia se pierden los LLM en la conversación en entornos del mundo verdadero.‘
Conclusión
Cualquiera que haya pasado una cantidad significativa de tiempo con un LLM probablemente reconocerá los problemas formulados aquí, por experiencia praxis; Y la mayoría de nosotros, me imagino, hemos negligente intuitivamente las conversaciones ‘perdidas’ de LLM para las frescas, con la esperanza de que el LLM pueda ‘comenzar de nuevo’ y dejar de obsesionarse con el material que surgió en un intercambio liberal, sinuoso y cada vez más insensible.
Es interesante observar que divulgar más contexto al problema puede no resolverlo necesariamente; Y de hecho, observar que el documento plantea más preguntas de las que proporciona respuestas (excepto en términos de formas de saltar el problema).
* Confusamente, esto no está relacionado con el significado convencional de ‘fragmentar’ en la IA.
† Los afectación audaces de los autores.
Publicado por primera vez el lunes 12 de mayo de 2025