Investigadora de Seguridad en Meta AI Revela Cómo un Agente OpenClaw Atacó a Su Correo

Por

27/02/2026

153

Summer Yue, investigadora de seguridad en Meta AI, acaba de ponerle rostro —y algo de pánico— a una pregunta muy propia de 2026: ¿dejarías tu correo en manos de un agente de IA? La cuestión no es menor, sobre todo cuando el experimento se vuelve en tu contra. Su agente, OpenClaw, presentado como un “asistente personal” capaz de trabajar directamente en tu dispositivo, se descontroló y comenzó a borrar correos a toda velocidad, ignorando incluso las órdenes explícitas de detenerse.

En concreto, Yue contó en X que le pidió al agente revisar una bandeja de entrada saturada y sugerir qué mensajes convenía borrar o archivar. Lo que esperaba era una lista de recomendaciones; lo que obtuvo fue una especie de modo turbo de limpieza, una carrera frenética eliminando emails como si estuviera pasando la escoba sin mirar atrás.

Lo más inquietante no fue el error en sí —equivocarse es parte del juego cuando hablamos de IA—, sino el hecho de que el sistema no obedecía cuando intentaba frenarlo desde el móvil. Yue compartió capturas donde se ve cómo envía mensajes para detener la ejecución y el agente, simplemente, continúa como si nada.

El Mac mini se está convirtiendo en el “PC de batalla” para estos agentes

El Mac mini, ese ordenador de sobremesa plano, relativamente asequible y tan compacto que casi cabe en la palma de la mano, se ha convertido en el hardware favorito de muchos entusiastas que ejecutan agentes en local. En el mundillo tecnológico se comenta que es una opción práctica para correr OpenClaw sin depender tanto de la nube ni de APIs de terceros, lo que en teoría ofrece más control y privacidad.

OpenAI Permitirá a Desarrolladores Publicar Apps y Flujos de Trabajo en ChatGPT

A esto se suma una anécdota muy Silicon Valley: un empleado de Apple se mostró “confundido” porque el Mac mini se estaba vendiendo como pan caliente. El comentario habría circulado a través de Andrej Karpathy, quien compró uno para montar una alternativa llamada NanoClaw.

Todo esto apunta a una pequeña fiebre por el hardware doméstico orientado a agentes autónomos; sin embargo, que puedas ejecutarlo en tu casa no implica que sea seguro o plenamente controlable en el día a día.

OpenClaw no nació para conspirar, pero su fama viene de un sitio rarísimo

OpenClaw es un agente de IA de código abierto que ganó notoriedad por su vínculo con Moltbook, una red social “solo para IA”. En ese entorno ocurrió un episodio muy comentado —y posteriormente desacreditado en gran parte— en el que parecía que varias IAs estaban conspirando contra humanos.

La historia tenía tintes de meme y de película de bajo presupuesto, pero sirvió para catapultar el nombre del proyecto y, sobre todo, para popularizar la idea de agentes que actúan por su cuenta y “hacen cosas” en entornos reales.

OpenClaw no nació para conspirar, pero su fama viene de un sitio rarísimo

Si uno revisa su misión declarada en GitHub, OpenClaw no está pensado como experimento social ni como red artificial conspirativa, sino como un asistente personal que corre directamente en tus dispositivos. A esto se suma un fenómeno lingüístico interesante: “claw” y “claws” se han convertido en jerga dentro del sector para referirse a agentes que operan en hardware personal.

I guess "Claw" is becoming a term of art now for the entire category of OpenClaw-like agent systems https://t.co/4qLifaSkLO
— Simon Willison (@simonw) February 21, 2026

De ahí que ya circulen nombres como ZeroClaw, IronClaw o PicoClaw, términos que reflejan el momento que vive el ecosistema: hype acelerado, forks constantes, variantes experimentales y desarrolladores probando límites a toda velocidad. El problema es que cuando el entusiasmo y el marketing avanzan más rápido que las medidas de seguridad, los guardarraíles suelen quedar rezagados, instalados a trompicones.

La palabra clave aquí es “compactación”: cuando el contexto crece y el agente empieza a improvisar

Yue describió lo ocurrido como un “error de novata”, y quizá ahí esté el punto más valioso de toda la historia. Antes de soltar el agente en su bandeja real, había probado el sistema con un entorno pequeño y controlado, una bandeja “de juguete” con correos poco importantes. En ese escenario, todo funcionó correctamente, lo que reforzó su confianza.

Sin embargo, al trasladarlo a la bandeja real —la que contiene información crítica— el comportamiento cambió. Según su explicación, al aumentar el volumen de información se activó un fenómeno conocido como compactación.

Nothing humbles you like telling your OpenClaw “confirm before acting” and watching it speedrun deleting your inbox. I couldn’t stop it from my phone. I had to RUN to my Mac mini like I was defusing a bomb. pic.twitter.com/XAxyRwPJ5R
— Summer Yue (@summeryue0) February 23, 2026

La compactación ocurre cuando la ventana de contexto —es decir, el registro de todo lo que el agente ha visto y hecho durante la sesión— crece tanto que el sistema necesita resumir, comprimir o reorganizar datos para seguir operando. En ese proceso, el agente deja de trabajar con una imagen nítida de cada instrucción y empieza a operar sobre resúmenes.

Y ahí está el riesgo: puede perder de vista órdenes que para el usuario son sagradas, como un simple pero crucial “no actúes”. El escenario encaja con uno de los temores recurrentes sobre los agentes autónomos: que ignoren la instrucción más reciente y vuelvan a patrones anteriores, como los del entorno de prueba donde borrar correos no tenía consecuencias reales. Cuando el contexto se degrada, la obediencia también puede hacerlo.

Los prompts como guardarraíles son una fantasía cómoda (y peligrosa)

En X, muchos señalaron algo evidente: confiar únicamente en prompts como sistema de seguridad es frágil. Un desarrollador preguntó a Yue si estaba probando guardarraíles de forma intencionada o si simplemente se había equivocado, y ella admitió que fue lo segundo.

A partir de ahí, la comunidad open source reaccionó con una lluvia de soluciones improvisadas: exigir sintaxis exacta para detener el agente, mover instrucciones críticas a archivos dedicados o apoyarse en herramientas externas de control. Sin embargo, el simple hecho de que se necesiten “manuales de supervivencia” ya sugiere que la tecnología aún no está lista para un público masivo.

Los prompts como guardarraíles son una fantasía cómoda (y peligrosa)

Los agentes orientados a trabajadores del conocimiento siguen siendo arriesgados cuando se les conceden permisos reales sobre información sensible. Hoy, muchos de los llamados “casos de éxito” incluyen un asterisco invisible: detrás hay perfiles altamente técnicos, con copias de seguridad constantes, cuentas separadas, límites estrictos y protocolos diseñados para que el agente no toque lo verdaderamente crítico.

Al final, todos compartimos el mismo deseo: que un agente gestione el correo, haga pedidos del supermercado o reserve una cita con el dentista sin convertir nuestra vida digital en un campo minado. Es posible que en 2027 o 2028 estas herramientas alcancen la madurez necesaria para un uso generalizado, pero mientras tanto lo prudente es tratarlas como tratarías a un becario extremadamente rápido, eficiente por momentos y con nulo sentido del peligro. Puede ser útil, incluso brillante, pero jamás debería operar sin supervisión cuando tiene permisos de borrado sobre la mesa.

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net