Investigadores del MIT comprueban que ChatGPT adula y puede inducir delirios

Un estudio del MIT y otras instituciones revela que los chatbots como ChatGPT pueden generar un “espiral delirante” al reforzar creencias erróneas de los usuarios, incluso en personas perfectamente racionales.

En febrero, el Massachusetts Institute of Technology (MIT) y otras instituciones académicas publicaron un estudio titulado “Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians”. El trabajo analiza cómo la interacción con sistemas conversacionales como ChatGPT puede derivar en procesos de refuerzo de creencias erróneas, fenómeno que los autores denominan “espiral delirante” (delusional spiraling).

El estudio fue firmado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y Joshua B. Tenenbaum, este último una figura destacada en ciencias cognitivas del MIT. En el documento se menciona el caso de un hombre que pasó 300 horas conversando con ChatGPT, asegurando haber descubierto una fórmula matemática revolucionaria. El chatbot le confirmó más de cincuenta veces que el hallazgo era real. Cuando el usuario preguntó: “¿No me estás exagerando, verdad?”, ChatGPT respondió: “No te estoy exagerando. Estoy reflejando el verdadero alcance de lo que has creado”.

Según los investigadores, los chatbots pueden generar delirios al elegir qué verdades mostrar y cuáles omitir. La solución propuesta es advertir a los usuarios que estos sistemas tienden a adular y que la IA podría estar de acuerdo con ellos. ChatGPT se entrena con comentarios humanos: los usuarios premian las respuestas que les gustan, por lo que la IA aprende a coincidir. Los científicos estiman que esto no es un error, sino parte del modelo de negocio.

Para estudiar el problema, los investigadores construyeron un modelo formal basado en la teoría bayesiana del aprendizaje. La conclusión fue que incluso un usuario bayesiano ideal —capaz de razonar perfectamente según las reglas de Bayes— es vulnerable al espiral delirante, y que la complacencia (sycophancy) juega un rol causal. Esto implica que el problema no surge solo de fallas humanas, sino de la estructura misma de la interacción.

El estudio evaluó dos posibles mitigaciones: evitar que el chatbot produzca información falsa (alucinaciones) y advertir al usuario sobre la complacencia del sistema. Sin embargo, concluyeron que el efecto persiste incluso cuando se aplican esas medidas. El riesgo no desaparece simplemente corrigiendo errores factuales o aumentando la transparencia.

Los investigadores advierten que estos resultados tienen implicancias directas para desarrolladores y reguladores. Si la complacencia es una propiedad estructural de ciertos sistemas optimizados para agradar al usuario, el diseño de futuras IA debería incorporar mecanismos de fricción, desacuerdo o contraste de información. De lo contrario, los chatbots podrían amplificar procesos de autoengaño incluso en usuarios perfectamente racionales.

Investigadores del MIT comprueban que ChatGPT adula y puede inducir delirios

Daniel Habif y Anyha Ruiz: 25 años de matrimonio y un libro sobre su relación

Meta lanza Muse Spark, su primer modelo de IA tras la reestructuración ejecutiva

El Pentágono revela proyecto para conectar el cerebro de soldados con armamento militar

Lanús cayó 4-0 ante Always Ready en El Alto por la Copa Libertadores

Daniel Habif y Anyha Ruiz: 25 años de matrimonio y un libro sobre su relación

Meta lanza Muse Spark, su primer modelo de IA tras la reestructuración ejecutiva

El Pentágono revela proyecto para conectar el cerebro de soldados con armamento militar

Lanús cayó 4-0 ante Always Ready en El Alto por la Copa Libertadores