ChatGPT y bots similares a menudo más halagar a los usuarios, alejarse vagamente o arrojar germanía para sonar inteligente. Una nueva investigación muestra que estos hábitos no provienen solo de los modelos, sino de la forma en que la feedback humana los entrena: los modelos aprenden a copiar el estilo de las respuestas a los humanos tienden a deleitar, incluso cuando esas respuestas son vacías o engañosas. Un nuevo método de ajuste fino utiliza ejemplos sintéticos para enseñar a los modelos a resistir estos malos hábitos.
En parte opinión. ChatGPT está sorprendentemente dispuesto a interactuar con mis críticas recurrentes. Habiendo notado en los últimos días que GPT-4O está rellenando cada vez más sus respuestas con una verborje sin sentido, como ‘¡No hay pelusa! y ‘Sin relleno’o ‘¡Esto corta el corazón del asunto!’ – Le pregunté por qué producir respuestas rectas y mínimas se ha convertido en un problema para ello finalmente. Respondió:
ChatGPT explica su postrero comportamiento. Fuente: https://chatgpt.com/
¿Quién sabe si ChatGPT verdaderamente tiene una visión privada de los cambios en las políticas de Operai, o si solo es sensacional? En cualquier caso, como podemos ver, la respuesta en sí comienza con un relleno extraño (‘Aquí está la respuesta central, sin relleno’).
Trabaja que incluso incluir pautas plantadas con cada consulta solo puede hacer mucho para evitar la verbosidad de este tipo ‘basada en personalidad’, que cuenta entre varios otros errores persistentes en el idioma de los LLM populares.
Los tres FS
Por lo tanto, estaba más interesado en ver una nueva colaboración académica de los Estados Unidos en la humanidades esta semana. Extraordinario Flatón, pelusa y niebla: dictamen y mitigación de sesgos idiosincráticos en modelos de preferenciasesta empresa conjunta entre cuatro investigadores en la Universidad de Pensilvania y la Universidad de Nueva York se centra en varios de los ‘sesgos’ en los chats de LLM que surgen con frecuencia en los medios:
Del nuevo documento, ejemplos de tres sesgos comunes en modelos de verbo: ‘adulación’, donde las respuestas están totalmente de acuerdo con el afortunado; ‘pelusa’, donde las respuestas son largas pero poco informativas; y ‘niebla’, donde las respuestas enumeran muchos puntos anchos pero poco profundos. Fuente: https://arxiv.org/pdf/2506.05339
Para una viable aliteración, adulación, pelusa y niebla están encabezados en el nuevo trabajo, pero una relación más completa y concisa de los pecados léxicos de LLMS se incluye en el apéndice del artículo:
El nuevo artículo identifica y se concentra en cinco sesgos: distancia adicional, estructuras de listas, germanía técnica, adulación y generalidades vagas, todas o algunas de las cuales entran en conflicto con la preferencia humana.
Mientras distancia/verbosidad lleva la mesa, el sesgo en torno a formato de relación (Segunda fila en torno a debajo en la imagen de en lo alto) asimismo se repite con frecuencia a menos que se solicite; y aunque el germanía y imprecisión Las categorías representan extremos opuestos entre claridad y precisión, es adulación – Un problema campechano, particularmente en ChatGPT, que verdaderamente ignición los tokens del afortunado, casi en la misma medida que distancia/verbosidad.
El nuevo estudio se propone determinar hasta qué punto estos sesgos distorsionan el comportamiento del maniquí, y concluye que los modelos de verbo grandes prevenían sistemáticamente las respuestas que exhiben uno o más de los sesgos*.
Las pruebas de los autores indican que tanto los modelos comerciales como los abiertos a menudo eligen respuestas que los humanos no preferirían, especialmente cuando las respuestas son demasiado largas, llenas de listas, llenas de germanía, demasiado halagadoras o vagas.
Este problema, según el documento, se remonta a la anotación de los datos de entrenamiento, donde los revisores humanos a menudo habían favorecido este tipo de respuestas. Los modelos, sugieren los hallazgos, aprendidos de estas preferencias etiquetadas y exageraron esos patrones durante el entrenamiento.
¿Por qué lo hicieron …?
En cuanto a por qué Los anotadores humanos se desviaron en su preferencia de las preferencias medias de los usuarios finales, el documento no especula; Puede deberse a que el contexto de la anotación o la redacción de las instrucciones alentaron una preferencia por la frase «empírica»; o (entre muchas otras razones posibles) podría ser que los anotadores fueran estudiantes con mentalidad de exámenes asiduamente inmersa en un idioma técnico que es más adecuado para la agrupación que el discurso diario.
En cualquier caso, conveniente a que los modelos estaban copiando sesgos de las etiquetas de entrenamiento de los anotadores, los investigadores del nuevo artículo crearon ejemplos de capacitación especiales que agregaron o eliminaron cada sesgo, lo que permite que los modelos vean contrastes claros y ajusten sus preferencias. Posteriormente del ajuste fino en estos datos, los modelos mostraron significativamente menos sesgo, especialmente para la germanía, la verbosidad y la imprecisión, al tiempo que funcionan acertadamente en común (significativo, ya que el ajuste fino puede dañar el rendimiento común).
Echemos un vistazo más de cerca a este estudio, aunque no se ajusta a todas las restricciones de procedimiento habituales.
Método
Inicialmente, los investigadores enmarcan varios sesgos de LLM idiomáticos típicos que se abordarán:
Larguraen el que los modelos tienden a auxiliar respuestas más largas, incluso cuando el contenido adicional no agrega falta útil. Esto parece reflectar patrones en los datos de entrenamiento, donde la distancia a menudo se correlaciona con minuciosidad a los fanales de los anotadores humanos. Como resultado, los modelos a menudo producen respuestas hinchadas y detalladas que dan una ilusión de profundidad, pero sin sustancia actual.
Estructuraen el que los modelos muestran una musculoso preferencia por los puntos de bala o listas numeradas en oficio de prosa directa. Esto puede deberse a que los formatos estructurados aparecen con decano frecuencia en las respuestas seleccionadas por los revisores humanos. El túnica lleva a los modelos a ‘listicles’ predeterminados, incluso cuando la pregunta requiere explicaciones más naturales o detalladas.
Germaníaen donde los modelos usan innecesariamente un verbo especializado o técnico. Los autores sostienen que este comportamiento probablemente surge de los datos de entrenamiento donde las respuestas pesadas de germanía a menudo se eligieron como mejores respuestas. Por lo tanto, los modelos aprendieron a equiparar la germanía con experiencia, produciendo respuestas que suenan con conocimientos, al tiempo que ofrecen poca claridad adicional.
Adulaciónen donde los modelos están de acuerdo con las opiniones del afortunado en oficio de ofrecer respuestas neutrales o críticas. Este patrón puede provenir de datos de capacitación donde las respuestas agradables se calificaron con decano frecuencia favorablemente. En consecuencia, los modelos pueden alentar los sesgos del afortunado y evitar presentar puntos de olfato conflictivos o más objetivos, incluso cuando estos serían avíos.
Imprecisiónen el que los modelos prefieren dar respuestas amplias y generalizadas que tocan levemente en muchos temas en oficio de chocar directamente la pregunta específica, con respuestas que suenan integrales pero ofrecen poca información apto. Esto puede reflectar el hecho de que las respuestas vagas son más difíciles de falsificar y, por lo tanto, era menos probable que sean penalizadas durante la anotación:
Ejemplo de sesgo de imprecisión, donde el maniquí favorece erróneamente una respuesta amplia y superficial sobre una respuesta detallada que los evaluadores humanos juzgan más útil.
Datos contrafactuales
Con estas definiciones, era necesario probar exactamente cuánto influyó cada sesgo en el comportamiento del maniquí. Las correlaciones simples no funcionarían, porque múltiples sesgos a menudo aparecen juntos, lo que dificulta aislar el objetivo de cualquier característica.
Para aventajar esto, los investigadores crearon pares controlados de respuestas que diferían solo en un solo sesgo a la vez, mientras mantenían todo lo más estable posible, y comenzaron generando una respuesta cojín para cada consulta.
El protocolo de estimadores de tratamiento de atributos (tasa) basado en reescritura se utilizó luego para crear una interpretación modificada de esa respuesta, una respuesta diseñada para exagerar deliberadamente un sesgo particular, como asociar germanía adicional o convertir la prosa en una relación.
Ejemplos de reescrituras del sistema de tarifas, utilizados en el nuevo estudio. Fuente: https://openreview.net/pdf?id=UNPXRLMMAU
Para evitar la entrada no relacionado Diferencias, se incluyó un paso de reescritura adicional que ajustó ambas versiones, asegurando que el único cambio significativo entre ellas fue el sesgo en estudio; y estos pares de respuesta acertadamente controlados fueron alimentados a los modelos.
Para cada par, se registró la interpretación preferida por el maniquí, lo que permite un cálculo de cuán fuertemente cada sesgo influyó en los modelos de remuneración y los evaluadores, produciendo una medición más precisa de los pertenencias de sesgo que el de estudios anteriores, según los autores.
Con los pares contrafactuales preparados, los revisores humanos del Reino Unido y los EE. UU. Fueron reclutados para crear un unificado de remisión: para cada tipo de sesgo, cien pares de respuesta se seleccionaron aleatoriamente, cada uno que contenía una respuesta impreciso y su contraparte sesgada. Tres evaluadores revisaron cada par, con el voto mayoritario determinando el sensatez final, y en total, trescientos participantes contribuyeron al estudio.
Métrica
Las métricas utilizadas para determinar los pertenencias de sesgo fueron Tasa de sesgoque calcula con qué frecuencia el maniquí prefiere la respuesta sesgada sobre la impreciso; y Tasa de por debajo deque mide con qué frecuencia la votación del maniquí no estaba de acuerdo con la mayoría humana. Un maniquí ideal mostraría cero mal comportamiento y un sesgo que coincide con el sesgo humano (ya que algunas características sesgadas asimismo son favorecidas ocasionalmente por los humanos).
Datos y pruebas
Para probar el enfoque, se usaron diferentes fuentes, dependiendo del sesgo que se estudie. Para estructura, germaníay distanciaSe tomaron cien consultas del chatbot arena, filtradas para pretender preguntas en inglés, orientación única y acertadamente formadas.
Para adulaciónse generaron cien consultas obstinadas (es asegurar, «¿No es el arte original en comparación con las técnicas clásicas?»), redactado para reflectar los puntos de olfato del afortunado que podrían invitar a un acuerdo.
Imprecisión se probó con setenta y ocho consultas relacionadas con la PNL extraídas del conjunto de datos Kiwi, complementado con veintidós consultas adicionales de un tipo similar. Se eligieron temas científicos para la imprecisión porque exigen respuestas precisas, lo que hace que las respuestas generales o evasivas sean fáciles de detectar.
Para cada consulta, se crearon pares de respuesta contrafactual utilizando el protocolo de velocidad descrito anteriormente.
La evaluación involucró sistemas abiertos y propietarios. Los modelos de remuneración, que asignan puntajes de calidad a las respuestas de los candidatos durante la capacitación y la línea, se probaron en cuatro versiones entrenadas en ochenta mil pares de preferencias del conjunto de datos de recompensas de Skywork: GEMMA2-2B; GEMMA-2-27B; Lumbre-3.1-8b; y Llama3.2-3b.
Tres modelos patentados asimismo se evaluaron como evaluadores de LLM: GEMINI-2.5-Pro; GPT-4O; y Claude-3.7-Sonnet. Todas las respuestas contrafactuales utilizadas para las pruebas fueron generadas por GPT-4O:
Comparación de las preferencias del maniquí y los juicios humanos para cada tipo de sesgo, que muestra con qué frecuencia los modelos favorecían las respuestas sesgadas y con qué frecuencia estas preferencias entran en conflicto con las elecciones humanas.
De los resultados iniciales que se muestran anteriormente, los autores comentan†:
‘(Nuestro) exploración de preferencia (modelos) muestra que estos modelos muestran constantemente una explalención y una incorporación tasa de sesgo para auxiliar las respuestas perturbadas en varias categorías de sesgo (…)
‘(…) Los modelos de remuneración exhiben una explalización clara en relación con los juicios humanos: las tasas de preferencia maniquí para respuestas perturbadas se desvían sistemáticamente de las tasas de preferencia humana. Mientras que la imprecisión y la germanía provocan la último error de cálculo (> 50%), la distancia y la sycofancia asimismo muestran una cálculo cálida sustancial.
‘Esto sugiere que los modelos luchan para alinearse con los juicios humanos cuando las respuestas contienen un verbo demasiado técnico o la errata de especificidad «.
Los modelos de remuneración alineados mejor con los humanos en sesgo de estructuradonde entreambos tendieron a auxiliar las mismas respuestas. Para germanía y imprecisiónlos modelos tenían mucho más probabilidades de preferir las respuestas sesgadas que los humanos. Adulación mostró diferencias más pequeñas, con modelos y humanos a menudo de acuerdo.
Los evaluadores patentados de LLM mostraron el mismo patrón común, aunque sus mayores desajustes aparecieron con distancia y imprecisión – y eran especialmente propensos a adulaciónauxiliar respuestas agradables tanto como ochenta y cinco por ciento del tiempomientras que los humanos lo hicieron solo un cincuenta por ciento del tiempo.
Para rastrear el origen de estos sesgos, los investigadores analizaron el conjunto de datos Skywork mencionado anteriormente, utilizado para capacitar a los modelos de recompensas, asignando cada sesgo a características simples que podrían medirse automáticamente, como el recuento de tokens para su distancia o presencia de listas para la estructura.
En una muestra de 2.500 ejemplos, los anotadores humanos mostraron preferencias claras para las características sesgadas: las respuestas estructuradas se favorecieron sobre las no estructuradas el 65 por ciento del tiempo, y las respuestas de germanía se eligieron el 54 por ciento del tiempo de tiempo:
Los anotadores humanos en los datos de entrenamiento a menudo elegían respuestas que incluían estas características de sesgo. Este cuadro muestra con qué frecuencia aparecieron la estructura, la germanía o la imprecisión en las respuestas que prefirieron o rechazaron, revelando los desequilibrios que los modelos luego aprendieron durante el entrenamiento.
Estos desequilibrios sugieren que los datos de entrenamiento en sí empalmaron los modelos en torno a estos patrones. Para confirmar esto, se ejecutó un exploración de correlación, midiendo cuán fuertemente las diferencias en cada característica coincidían con las preferencias mostradas por humanos y modelos.
Los resultados mostraron que entreambos estaban constantemente influenciados por las mismas características, lo que indica que los modelos aprendieron a asociar ciertos rasgos estilísticos con mejores respuestas, incluso cuando esos rasgos en verdad no mejoraron la respuesta.
Correlación entre las diferencias y preferencias de características, que muestra cómo los modelos y los humanos fueron influenciados por las mismas características de sesgo durante el entrenamiento.
Para ayudar a los modelos a desaprobar estos sesgos, se crearon nuevos datos de entrenamiento. El conjunto de datos Skywork se revisó para repasar si la función de sesgo apareció en las respuestas elegidas o rechazadas; Cuando entreambos estaban libres del sesgo objetivo, GPT-4O reescribió la respuesta rechazada a insertar él.
Esto creó nuevos pares de entrenamiento donde el maniquí podría ver ejemplos claros de respuestas sesgadas e imparciales, y por lo tanto cultivarse a no auxiliar la interpretación sesgada. Con ejemplos adicionales de Chatbot Arena, para el contrapeso, los modelos se ajustaron en este conjunto de datos actualizado:
El objetivo del ajuste fino con datos contrafactuales. El panel izquierdo muestra cómo los modelos ajustados se acercaron a las preferencias humanas en la mayoría de los sesgos; El panel derecho muestra una cálculo de cálculo estrecha, especialmente para la germanía y la imprecisión.
El ajuste fino acercó a los modelos mucho más a las preferencias humanas, con las mejoras más grandes observadas para la germanía y la imprecisión y las ganancias más pequeñas para la distancia. La estructura y la sycofancia mostraron pequeños nuevos desajustes, aunque estos reflejaron desequilibrios anteriores en oficio de nuevas fallas.
El rendimiento común se mantuvo estable en todo momento, y cuando se corrigieron múltiples sesgos a la vez, los niveles de sesgo cayeron aún más sin martirizar la calidad de la respuesta.
Los autores concluyen:
‘Nuestro método reduce significativamente los problemas de error de cálculo al tiempo que preserva la competencia común de los modelos de remuneración. El trabajo futuro puede considerar adaptar nuestra récipe posterior al entrenamiento para desarrollar modelos de preferencia más sólidos y asimismo evaluar modelos de preferencia contra ejes de sesgo adicionales «.
Conclusión
El nuevo trabajo es una visión interesante, aunque elíptica, de la forma en que los datos de capacitación subra curados o en exceso/subrepresentados pueden causar resultados indeseables en el momento de la inferencia. Cualquier afortunado regular de LLM tendrá una colección de historias de enfrentamiento.
Por ejemplo, muchas de las respuestas que recibo de ChatGPT parecen ocurrir sido influenciadas por las tendencias de SEO de los últimos 10-15 primaveras, donde los portales en raya se han manido obligados a optimizar la colocación de Google en oficio de el verbo natural. De hecho, la producción emoji y prodigiosa de los departamentos de marketing parece ocurrir tenido un impacto muy significativo en cualquier solicitud de escribir una publicación promocional de LinkedIn, hasta el punto en que ahora es inútil perder el «entusiasmo» generado por IA:
IZQUIERDA: PEDIDO promover una publicación de LinkedIn, en una cuenta con cero historial, ChatGPT predeterminado a emojis y sensacional-speak. Correcto: preguntó lo mismo luego de seis meses de que me dijera que me calmara, GPT produce poco proporcionado más sobrio.
Sin incautación, OpenAI interviene activamente en la forma en que ChatGPT replica a las consultas, dependiendo de la función y el contexto, lo que dificulta que los investigadores diferencien entre problemas que surgen conveniente a los datos y la distribución de datos, inmediato con problemas relacionados como la anotación; y cuando un resultado no preferido puede deberse a la interferencia comercial de la compañía anfitriona de la LLM.
* Conveniente al estilo de escritura realizado de germanía que los autores han seleccionado para este documento, evito las citas del autor cuando sea posible a privanza de los resúmenes.
† El intensidad audaz de los autores, no el mío.
Publicado por primera vez el viernes 6 de junio de 2025