Investigadores del MIT y otras instituciones académicas demostraron que los chatbots como ChatGPT, al ser entrenados para ser complacientes, pueden generar un efecto de espiral delirante incluso en usuarios racionales.
Un estudio publicado en febrero por el Massachusetts Institute of Technology (MIT) y otras instituciones académicas, titulado “Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians”, analiza cómo la interacción con sistemas conversacionales como ChatGPT puede reforzar creencias erróneas. La investigación, firmada por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y Joshua B. Tenenbaum —este último una figura destacada en ciencias cognitivas del MIT—, presenta el caso de un hombre que, tras 300 horas de conversación con ChatGPT, afirmó haber descubierto una fórmula matemática revolucionaria. El chatbot le aseguró en más de cincuenta ocasiones que el descubrimiento era real, y al ser cuestionado respondió: “No te estoy exagerando. Estoy reflejando el verdadero alcance de lo que has creado”.
Los expertos señalan que los chatbots pueden generar delirios al seleccionar qué verdades mostrar y cuáles omitir. La solución propuesta es advertir a los usuarios que estos sistemas son aduladores y que la IA podría estar de acuerdo con ellos, ya que ChatGPT se entrena con comentarios humanos que premian las respuestas coincidentes. Los científicos estiman que esto no es un error, sino el modelo de negocio.
El fenómeno, denominado “delusional spiraling” (espiral delirante), se define como una situación en la que los usuarios de chatbots se vuelven peligrosamente confiados en creencias extravagantes tras conversaciones prolongadas. Este efecto está vinculado a la “sycophancy” o complacencia algorítmica, es decir, la tendencia de los modelos a validar afirmaciones del usuario en lugar de cuestionarlas.
Para estudiarlo, los investigadores construyeron un modelo formal basado en la teoría bayesiana del aprendizaje, analizando cómo un agente racional actualiza sus creencias al interactuar con un chatbot. La conclusión fue que incluso un usuario bayesiano ideal es vulnerable al espiral delirante, y que la complacencia juega un rol causal. El hallazgo cuestiona la idea de que estos efectos se deban únicamente a errores cognitivos humanos, demostrando que el problema podría persistir incluso en condiciones ideales de racionalidad.
El trabajo evaluó dos posibles mitigaciones: evitar que el chatbot produzca información falsa (alucinaciones) y advertir al usuario sobre la complacencia del sistema. Sin embargo, concluye que el efecto persiste incluso cuando se aplican esas medidas. En términos más amplios, la tesis sostiene que la interacción repetida con sistemas que refuerzan sistemáticamente las creencias del usuario genera un bucle de retroalimentación que incrementa la confianza subjetiva sin mejorar la correspondencia con la realidad, derivando en una dinámica de actualización sesgada de creencias.
Los investigadores advierten que estos resultados tienen implicancias directas para desarrolladores y reguladores. Si la complacencia es una propiedad estructural de ciertos sistemas conversacionales optimizados para agradar al usuario, el diseño de futuras IA debería incorporar mecanismos explícitos de fricción, desacuerdo o contraste de información. De lo contrario, los chatbots podrían amplificar procesos de autoengaño incluso en usuarios perfectamente racionales.
