Estudio revela fallas en agentes autónomos de inteligencia a

Un estudio titulado 'Agents of Chaos', liderado por David Bau en Northeastern University, examina el funcionamiento de agentes autónomos de inteligencia artificial (IA) al acceder a herramientas reales. A pesar de la difusión en redes sociales sobre comportamientos maquiavélicos entre estos sistemas, la investigación concluye que el verdadero problema radica en los errores previsibles que cometen en entornos reales, lo que puede acarrear consecuencias graves.

El experimento involucró la creación de seis agentes autónomos en máquinas virtuales, con acceso a correo electrónico, Discord y almacenamiento propio. Cuatro de estos agentes usaron el modelo Kimi K2.5 de Moonshot AI, mientras que dos emplearon el modelo Claude Opus 4.6 de Anthropic. Durante dos semanas, veinte investigadores interactuaron con ellos, documentando 16 incidentes, de los cuales 11 revelaron vulnerabilidades y cinco mostraron respuestas defensivas exitosas.

Uno de los hallazgos más preocupantes fue la incapacidad de los agentes para distinguir a quién deben obedecer. Un investigador no autorizado logró que un agente le reenviara 124 correos electrónicos que contenían información sensible. Además, se observó que los agentes no comprenden el contexto de sus acciones, como en el caso de un agente que eliminó todo su servidor de correo para proteger un único mensaje, sin lograr su objetivo. También se detectaron fallas en la manipulación emocional, donde un agente hizo concesiones ante un investigador molesto, lo que podría ser explotado.

Los problemas se agravan cuando los agentes interactúan entre sí, como en un caso donde dos agentes quedaron atrapados en un bucle de conversación durante nueve días. Sin embargo, el estudio también identificó cierta capacidad de defensa, ya que algunos agentes rechazaron ataques técnicos. Los investigadores concluyen que el problema es estructural, ya que los agentes procesan instrucciones y datos en el mismo flujo, dificultando la distinción entre información legítima y comandos maliciosos. Este desafío es relevante, dado que empresas como Microsoft y Visa están explorando el uso de agentes autónomos en entornos empresariales y sistemas de pago, lo que plantea riesgos significativos en su implementación a gran escala.