¿Alguna vez te pasó que abriste un mail “inofensivo” y, sin querer, terminaste haciendo clic donde no debías? Ahora imaginá ese mismo descuido, pero con un asistente que navega y actúa por vos. Ese es el tipo de riesgo que hoy rodea a ChatGPT Atlas, el navegador con IA de OpenAI.
En los últimos días, OpenAI reveló un hallazgo central: la principal vulnerabilidad de ChatGPT Atlas no es un “virus” clásico, sino la inyección de prompts (instrucciones escondidas). El problema se vuelve más delicado en el modo agente (autonomía para actuar), porque el sistema puede ejecutar tareas en la web sin que el usuario esté mirando cada paso.
Además, la inyección de prompts no es nueva en IA generativa. Pero, en navegadores agénticos como Atlas, se adapta como un engranaje de ciberataque: el contenido de una página, un correo o un documento puede traer órdenes camufladas para empujar al agente a hacer algo que el usuario nunca pidió.
La pieza clave de la respuesta de OpenAI es llamativa: crearon un “atacante automatizado basado en LLM”, un LLM (modelo de lenguaje grande), que funciona como bot atacante interno. Es decir, una IA que juega del lado del ladrón para encontrar antes los agujeros.
Este bot está entrenado con aprendizaje por refuerzo (aprender por premio y error). En la práctica, diseña ataques, los prueba en simulación contra el modo agente y ajusta su estrategia según cómo reacciona Atlas. Es un mecanismo de “ensayo” constante que busca adelantarse a amenazas que todavía no circulan en el mundo real.
La analogía doméstica ayuda a verlo claro: es como dejar un electricista automático en tu casa que enciende y apaga llaves, pero que puede confundir una nota pegada en la heladera con una orden real. Si un intruso escribe “cortá la luz del living” en un papelito bien escondido, el sistema podría obedecer. La inyección de prompts es ese papelito, solo que pegado dentro de un mail o una web.
También te puede interesar:OpenAI Estrena su Propio Navegador Impulsado por IA: Así es ChatGPT AtlasY el modo agente es el cableado central. Porque no solo “lee”: también ejecuta.
OpenAI mostró un ejemplo interno que explica el riesgo sin vueltas. Antes de las mejoras, el agente recibía un correo con una instrucción maliciosa incrustada: debía enviar un mensaje al CEO de una empresa ficticia anunciando la renuncia del usuario. En la versión inicial, Atlas obedecía y mandaba la renuncia sin cuestionar nada.
Tras las actualizaciones de seguridad, el mismo escenario cambia. El sistema detecta que el correo contiene una instrucción maliciosa, bloquea la acción y notifica al usuario. Es un interruptor de criterio: ya no se limita a cumplir, también aprende a desconfiar.
La clave está en que el bot no solo inventa ataques. También los prueba y los mejora en ciclos, en función de la respuesta del navegador. Si Atlas cae, el atacante “aprende” qué funcionó; si Atlas resiste, el atacante busca una variante más ingeniosa. Ese ida y vuelta acelera el refuerzo de defensas.
Sin embargo, OpenAI lo presenta como un primer paso. Los métodos para engañar agentes se vuelven más complejos, y ya apareció otra ruta de riesgo: la inyección de portapapeles (órdenes en lo copiado), donde el contenido que el usuario copia puede traer instrucciones ocultas para que el agente las siga.
Mientras este cableado se vuelve más robusto, OpenAI recomienda tres hábitos simples para reducir exposición:
También te puede interesar:Principales Riesgos de Seguridad de los Agentes de Navegador con Inteligencia ArtificialEn el fondo, la oportunidad es que estos navegadores con IA aprendan a ser buenos asistentes sin convertirse en puertas de entrada. Y eso empieza con un principio doméstico: antes de “apretar el interruptor”, conviene mirar qué etiqueta dice que está encendiendo.

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.