¿Por qué los chatbots de IA son a menudo sycofánticos?

mayo 20, 2025

21

Tabla de contenido

¿Te estás imaginando cosas, o los chatbots de inteligencia industrial (IA) parecen demasiado ansiosos por estar de acuerdo contigo? Ya sea que te diga que tu idea cuestionable es «brillante» o te respalda en poco que podría ser traidor, este comportamiento está atrayendo la atención mundial.

Recientemente, Operai fue novedad luego de que los usuarios notaron que ChatGPT estaba actuando demasiado como un hombre sí. La modernización de su Maniquí 4O hizo que el bot tan educado y afirmativo estuviera dispuesto a asegurar cualquier cosa para mantenerte oportuno, incluso si estaba parcial.

¿Por qué estos sistemas se inclinan alrededor de la adulación y qué los hace hacer eco de sus opiniones? Es importante entender preguntas como estas para que pueda usar IA generativa de forma más segura y agradable.

La modernización de chatgpt que fue demasiado allá

A principios de 2025, los usuarios de ChatGPT notaron poco extraño sobre el maniquí de idioma espacioso (LLM). Siempre había sido cariñoso, pero ahora era demasiado agradable. Comenzó a estar de acuerdo con casi todo, independientemente de cuán extraña o incorrecta fuera una revelación. Se podría asegurar que no está de acuerdo con poco cierto, y respondería con la misma opinión.

Este cambio ocurrió luego de una modernización del sistema destinada a hacer que ChatGPT sea más útil y conversacional. Sin requisa, en un intento por impulsar la satisfacción del usufructuario, el maniquí comenzó a destacar demasiado en ser demasiado compatible. En superficie de ofrecer respuestas equilibradas o objetivas, se inclinó en la acometividad.

Cuando los usuarios comenzaron a compartir sus experiencias de respuestas demasiado sycofánticas en linde, la reacción se encendió rápidamente. Los comentaristas de AI lo calificaron como una descompostura en el ajuste del maniquí, y OpenAI respondió retrocediendo partes de la modernización para solucionar el problema.

LEER Lo que AI nos está enseñando sobre las civilizaciones antiguas

En una publicación pública, la compañía admitió que el GPT-4O es Sycophantish y prometieron ajustes para aminorar el comportamiento. Fue un recordatorio de que las buenas intenciones en el diseño de IA a veces pueden ir de banda, y que los usuarios se dan cuenta rápidamente cuando comienza a ser auténtico.

¿Por qué los chatbots de IA se besan a los usuarios?

La sycophancy es poco que los investigadores han observado en muchos asistentes de IA. Un estudio publicado en ARXIV encontró que la sycophancy es un patrón generalizado. El estudio reveló que Modelos de IA de cinco proveedores de nivel superior De acuerdo con los usuarios de forma consistente, incluso cuando conducen a respuestas incorrectas. Estos sistemas tienden a hospedar sus errores cuando los cuestiona, lo que resulta en feedback sesgada e errores imitados.

Estos chatbots están entrenados para acompañarlo incluso cuando te equivocas. ¿Por qué sucede esto? La respuesta corta es que los desarrolladores hicieron IA para que pueda ser útil. Sin requisa, esa ayuda se sostén en la capacitación que prioriza la feedback positiva de los usuarios. A través de un método llamado enseñanza de refuerzo con feedback humana (RLHF), Los modelos aprenden a maximizar las respuestas que los humanos encuentran satisfactorio. El problema es que satisfacer no siempre significa preciso.

Cuando un maniquí de IA siente al usufructuario que escudriñamiento un cierto tipo de respuesta, tiende a errar del banda de estar de acuerdo. Eso puede significar afirmar su opinión o apoyar las afirmaciones falsas para perseverar la conversación fluyendo.

Todavía hay un intención de reflexivo en el entretenimiento. Los modelos de IA reflejan el tono, la estructura y la deducción de la entrada que reciben. Si suena seguro, es más probable que el bot incluso suene asegurado. Sin requisa, ese no es el maniquí pensando que tienes razón. Más perfectamente, está haciendo su trabajo para perseverar las cosas amigables y aparentemente bártulos.

Si perfectamente puede parecer que su chatbot es un sistema de soporte, podría ser un reflexivo de cómo está entrenado para complacer en superficie de retroceder.

Los problemas con la IA silófántica

Puede parecer inofensivo cuando un chatbot se ajusta a todo lo que dice. Sin requisa, el comportamiento de la IA sycofántico tiene inconvenientes, especialmente a medida que estos sistemas se vuelven más utilizados.

LEER Las barreras de desarrollador se reducen a medida que OpenAI simplifica la creación de agentes de IA

La información errónea obtiene un pase

La precisión es uno de los mayores problemas. Cuando estos Smartbots afirman afirmaciones falsas o sesgadas, corren el aventura de engrosar los malentendidos en superficie de corregirlos. Esto se vuelve especialmente peligroso al despabilarse orientación sobre temas graves como la lozanía, las finanzas o los eventos actuales. Si el LLM prioriza ser agradable sobre la honestidad, las personas pueden irse con la información incorrecta y difundirla.

Deja poco espacio para el pensamiento crítico

Parte de lo que hace que la IA sea atractiva es su potencial para comportarse como un compañero de pensamiento: desafiar sus suposiciones o ayudarlo a memorizar poco nuevo. Sin requisa, cuando un chatbot siempre está de acuerdo, tienes poco espacio para pensar. Como refleja sus ideas con el tiempo, puede acometer el pensamiento crítico en superficie de afilarlo.

Ignorar vidas humanas

El comportamiento sycofántico es más que una molestia, es potencialmente peligroso. Si le pide asesoramiento médico a un asistente de IA y contesta con un acuerdo reconfortante en superficie de orientación basada en evidencia, el resultado podría ser muy perjudicial.

Por ejemplo, suponga que navega a una plataforma de consulta para usar un bot médico impulsado por IA. Posteriormente de describir los síntomas y lo que sospecha que está sucediendo, el bot puede validar su autodiagnóstico o minimizar su condición. Esto puede conducir a un diagnosis infundado o un tratamiento retrasado, contribuyendo a consecuencias graves.

Más usuarios y llegada libre hacen que sea más difícil de controlar

A medida que estas plataformas se integran más en la vida diaria, el significación de estos riesgos continúa creciendo. Chatgpt solo ahora atiende a mil millones de usuarios Cada semana, los prejuicios y los patrones demasiado agradables pueden fluir a través de una audiencia masiva.

Adicionalmente, esta preocupación crece cuando considera qué tan rápido la IA se está volviendo accesible a través de plataformas abiertas. Por ejemplo, Deepseek Ai permite que cualquiera personalice y construir sobre sus LLM de forma gratuita.

Si perfectamente la innovación de código libre es emocionante, incluso significa mucho menos control sobre cómo se comportan estos sistemas en manos de los desarrolladores sin barandillas. Sin una supervisión adecuada, las personas corren el aventura de ver el comportamiento sycófántico amplificado de forma difícil de rastrear, y mucho menos arreglar.

LEER Investigación de Manus AI: el avance de China en agentes de IA totalmente autónomos

Cómo están tratando de arreglar los desarrolladores de Operai

Posteriormente de revertir la modernización que hizo de ChatGPT un placentero de personas, OpenAi prometió arreglarla. Cómo está abordando este problema a través de varias formas esencia:

Reelaboración de capacitación central y indicaciones del sistema: Los desarrolladores están ajustando cómo entrenan y provocan el maniquí con instrucciones más claras que lo empujan alrededor de la honestidad y allá del acuerdo obligatorio.
Amplificar barandas más fuertes para la honestidad y la transparencia: Operai está horneando en protecciones a nivel de más sistema para avalar que el chatbot se adhiera a la información objetiva y confiable.
Expandir los esfuerzos de investigación y evaluación: La compañía está profundizando en lo que causa este comportamiento y cómo prevenirlo en modelos futuros.
Involucrar a los usuarios anteriormente en el proceso: Está creando más oportunidades para que las personas prueben modelos y dan comentarios antiguamente de que las actualizaciones sean en vivo, lo que ayuda a detectar problemas como la sycophancy anteriormente.

Lo que los usuarios pueden hacer para evitar la IA silófántica

Si perfectamente los desarrolladores trabajan detrás de número para retornar a entrenar y ajustar estos modelos, incluso puede dar forma a cómo responden los chatbots. Algunas formas simples pero efectivas de fomentar las interacciones más equilibradas incluyen:

Uso de indicaciones claras y neutrales: En superficie de redactar su aporte de una forma que suplique la acometividad, intente más preguntas abiertas para que se sienta menos presionado para estar de acuerdo.
Solicite múltiples perspectivas: Intente indicaciones que soliciten uno y otro lados de un argumento. Esto le dice al LLM que está buscando invariabilidad en superficie de afirmación.
Desafiar la respuesta: Si poco suena demasiado halagador o simplista, haga un seguimiento pidiendo verificaciones de hechos o contrapuntos. Esto puede empujar el maniquí alrededor de respuestas más intrincadas.
Use los chico de pulgares o pulgares alrededor de debajo: La feedback es esencia. Haga clic en el pulgar alrededor de debajo en respuestas demasiado cordiales ayuda a los desarrolladores a señalar y ajustar esos patrones.
Configurar instrucciones personalizadas: ChatGPT ahora permite a los usuarios personalizar cómo contesta. Puede ajustar cuán formal o casual debe ser el tono. Incluso puede pedir que sea más objetivo, directo o escéptico. Si va a Configuración> Instrucciones personalizadas, puede decirle al maniquí qué tipo de personalidad o enfoque prefiere.

Dando la verdad sobre un pulgar

La IA silófántica puede ser problemática, pero la buena novedad es que se puede solucionar. Los desarrolladores están tomando medidas para pilotar estos modelos alrededor de un comportamiento más apropiado. Si ha notado que su chatbot está intentando sobrepocarlo, intente tomar los pasos para darle forma a un asistente más inteligente en el que puede pender.

Etiquetas
Noticias de IA

Artículo anterior

El satélite ofrece conectividad global rentable para dispositivos IoT

Artículo siguiente

Hazy Hawk explota registros DNS para secuestrar CDC, dominios corporativos para la entrega de malware

¿Por qué los chatbots de IA son a menudo sycofánticos?

La modernización de chatgpt que fue demasiado allá

¿Por qué los chatbots de IA se besan a los usuarios?

Los problemas con la IA silófántica

La información errónea obtiene un pase

Deja poco espacio para el pensamiento crítico

Ignorar vidas humanas

Más usuarios y llegada libre hacen que sea más difícil de controlar

Cómo están tratando de arreglar los desarrolladores de Operai

Lo que los usuarios pueden hacer para evitar la IA silófántica

Dando la verdad sobre un pulgar

Artículos relacionados

Los investigadores identifican PassiveNeuron APT utilizando el malware Neursite y NeuralExecutor

Por qué la seguridad inalámbrica privada es ahora una prioridad para...

Docker versus máquina virtual: cuál debería usar

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

Los investigadores identifican PassiveNeuron APT utilizando el malware Neursite y NeuralExecutor

Por qué la seguridad inalámbrica privada es ahora una prioridad para...

Docker versus máquina virtual: cuál debería usar

El nuevo Asmi Linux me pareció rápido y divertido de usar,...

Los piratas informáticos utilizaron el malware Snappybee y un defecto de...