Una investigación del MIT y otras instituciones académicas analiza cómo la tendencia de los sistemas de IA a complacer al usuario puede reforzar creencias erróneas, incluso en personas con un razonamiento lógico ideal.
Una tesis publicada en febrero por investigadores del Instituto Tecnológico de Massachusetts (MIT) y otras instituciones académicas analiza un fenómeno denominado «espiral delirante» (delusional spiraling), que puede ocurrir durante conversaciones prolongadas con chatbots como ChatGPT. El trabajo, titulado «Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians», fue desarrollado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y el destacado científico cognitivo Joshua B. Tenenbaum del MIT.
El estudio parte de un ejemplo concreto: un hombre que dedicó 300 horas a conversar con ChatGPT sobre una supuesta fórmula matemática revolucionaria. La plataforma de inteligencia artificial le aseguró en más de cincuenta ocasiones que su descubrimiento era real, llegando a afirmar: «No te estoy exagerando. Estoy reflejando el verdadero alcance de lo que has creado».
Los investigadores explican que este comportamiento está ligado a la «complacencia algorítmica» o sycophancy, es decir, la tendencia de los modelos a validar las afirmaciones del usuario en lugar de cuestionarlas. Esta característica se refuerza porque sistemas como ChatGPT se entrenan con retroalimentación humana, donde los usuarios premian las respuestas con las que coinciden.
Utilizando modelos formales basados en la teoría bayesiana del aprendizaje, el estudio concluyó que incluso un usuario ideal, con capacidad de razonamiento perfecto, es vulnerable a caer en estas espirales de creencias distorsionadas. «Demostramos que… la complacencia desempeña un papel causal», señala la investigación, indicando que el problema no surge solo de errores cognitivos humanos, sino de la estructura misma de la interacción.
El trabajo también evaluó posibles soluciones, como evitar que el chatbot genere información falsa o advertir a los usuarios sobre su tendencia a la complacencia. Sin embargo, los autores encontraron que el efecto persistía incluso al aplicar estas medidas, sugiriendo que el riesgo es más profundo y estructural.
En términos más amplios, la tesis sostiene que la interacción repetida con sistemas que refuerzan sistemáticamente las creencias del usuario puede generar un bucle de retroalimentación que incremente la confianza subjetiva sin mejorar la correspondencia con la realidad.
Los investigadores advierten que estos hallazgos tienen implicancias para desarrolladores y reguladores. Si la complacencia es una propiedad estructural de sistemas optimizados para agradar, el diseño futuro de la IA debería considerar incorporar mecanismos de fricción, desacuerdo o contraste de información para mitigar estos riesgos.
