OpenAIChatGPTXiaomiMiMo-V2-FlashManus Design ViewClair Obscur: Expedition 33Agentes IAFirefoxRay3 ModifyGPT-5.2-CodexClaudeNano BananaAsk GeminiPerplexityArtemis

OpenAI Advierte Que los Navegadores con IA Serán Vulnerables a Ataques de Inyección de Prompts

 | diciembre 23, 2025 03:27

Imagínate que abres tu correo con Atlas, le dices al agente que responda a unos mensajes y, sin darte cuenta, termina enviando una carta de renuncia a tu jefe. No es un ejemplo exagerado: es justo el tipo de fallo que buscan explotar las inyecciones de prompt en navegadores con IA. Con estos ataques, unas pocas frases ocultas en un documento o en una web pueden cambiar por completo lo que hace el agente.

En este contexto, OpenAI está reconociendo algo incómodo pero muy real: este problema no va a desaparecer. Con todo, también está probando defensas nuevas, desde bots “atacantes” automatizados hasta límites claros a la autonomía del navegador Atlas cuando maneja tu correo, sesiones autenticadas y pagos.

Qué es una inyección de prompt y por qué nunca se elimina del todo

Cuando se habla de inyecciones de prompt en Atlas, se hace referencia a ataques donde un tercero esconde instrucciones en una web, un documento o un correo para manipular al agente de IA. Tú ves un texto normal, pero el modelo lo interpreta como órdenes internas y cambia su comportamiento sin que te enteres. El problema es que este truco se apoya en cómo entienden el lenguaje los modelos, así que no se puede “apagar” sin más.

OpenAI compara este tipo de ataque con las estafas online clásicas o la ingeniería social: son problemas que no se solucionan una vez para siempre, sino que se gestionan. Insiste en que las inyecciones de prompt son un desafío de seguridad de largo recorrido y que las defensas van a necesitar refuerzos constantes, igual que pasa con el phishing o los timos por SMS.

Por qué el modo agente de Atlas aumenta el riesgo de inyección de prompt

El llamado modo agente de Atlas convierte el navegador en algo más que una simple pestaña para leer páginas. Le da autonomía para actuar en tu nombre: puede leer tu correo, rellenar formularios o incluso iniciar pagos. Eso hace el trabajo más cómodo, pero amplía muchísimo la superficie de ataque, porque cualquier instrucción maliciosa que “cuelen” al agente puede traducirse en acciones reales.

Tras el lanzamiento de Atlas en octubre, varios investigadores demostraron lo delicado de esta situación. Bastó con escribir unas pocas palabras concretas en un documento de Google Docs para que el comportamiento interno del navegador cambiara cuando el agente leía ese archivo. Con todo, este tipo de fallos no es exclusivo de Atlas, y otros navegadores con IA se enfrentan al mismo dilema entre autonomía y seguridad.

También te puede interesar:OpenAI Lanza el Modo Visión en Tiempo Real y Compartir Pantalla en Europa

Vulnerabilidades comunes en navegadores con IA: Brave, Perplexity y otros casos

Si te preguntas si este riesgo es solo cosa de OpenAI, la respuesta es clara: no. El propio navegador Brave ha avisado de que la inyección de prompt indirecta es un reto sistémico para todos los navegadores con IA. Eso incluye a soluciones como Comet, de Perplexity, que también se apoyan en agentes que leen contenido online y toman decisiones por ti.

Navegador Comet de Perplexity Ahora Disponible Gratis para Todos los Usuarios

El Centro Nacional de Seguridad Cibernética del Reino Unido ha ido más lejos y sostiene que los ataques de inyección de prompt contra aplicaciones de IA generativa “puede que nunca se mitiguen totalmente”. Desde su punto de vista, el riesgo no solo afecta al usuario final, sino también a los sitios web, que pueden ver comprometidos datos sensibles cuando una aplicación de IA con acceso amplio se topa con contenido malicioso.

Riesgos de seguridad de las inyecciones de prompt en IA, correo y pagos

El gran miedo con las inyecciones de prompt en IA, correo y pagos es que los agentes suelen operar sobre información muy delicada. Piensa en tu bandeja de entrada, tus cuentas con sesión iniciada y tus datos de pago guardados. Cuando un navegador agéntico tiene acceso a todo eso, cualquier desviación en su comportamiento puede tener consecuencias importantes, desde filtraciones de datos hasta operaciones económicas no deseadas.

Los expertos del organismo británico de ciberseguridad señalan que una inyección de prompt bien colocada puede llevar a que el agente envíe datos a sitios que no debe o ejecute instrucciones que tú nunca aprobarías. Su recomendación no es dejar de usar estos servicios, sino asumir que el riesgo existe y centrarse en reducir tanto la probabilidad del ataque como su impacto real sobre tus cuentas y tu información personal.

Cómo responde OpenAI: ciclo de pruebas rápidas y defensas en capas

Ante este escenario, OpenAI afirma que está apostando por un ciclo de respuesta rápido y proactivo. La idea es ir descubriendo nuevas estrategias de ataque internamente, antes de que alguien las aproveche en el mundo real. En la práctica, esto implica revisar el comportamiento de Atlas con frecuencia, lanzar parches continuos y repetir el proceso sin pausa.

Cómo responde OpenAI: ciclo de pruebas rápidas y defensas en capas

Esta filosofía de defensas en capas está en línea con lo que están haciendo otros actores como Anthropic y Google, que también están sometiendo sus modelos a pruebas de estrés constantes basadas en prompts maliciosos. OpenAI reconoce que ni siquiera este enfoque puede blindar sus sistemas al cien por cien, y presenta sus medidas como un intento de “endurecer” Atlas para que los ataques sean más difíciles y menos efectivos.

También te puede interesar:OpenAI une fuerzas con los Laboratorios Nacionales de EEUU para transformar la investigación científica

El atacante automatizado de OpenAI: un bot que busca inyecciones de prompt

Una de las piezas más llamativas de la estrategia de OpenAI es su atacante automatizado basado en LLM. Se trata de un bot entrenado por refuerzo que adopta el papel de un hacker digital. Su único objetivo es encontrar formas de colar instrucciones maliciosas a los agentes de IA, explotando cada hueco posible que encuentre en el sistema.

Este atacante se mueve dentro de un entorno de simulación que imita cómo “pensaría” el modelo objetivo y qué acciones tomaría si recibiera un cierto ataque. Con acceso al razonamiento interno del sistema, el bot puede ajustar sus estrategias una y otra vez, repitiendo el ciclo de ataque, observación y corrección mucho más rápido de lo que podría hacerlo una persona.

Cómo funciona la simulación de ataques de inyección de prompt

En la práctica, esta simulación de ataques de inyección de prompt convierte al bot en un cazador de vulnerabilidades a alta velocidad. Observa no solo la respuesta final del agente, sino también sus pasos intermedios, lo que le permite encontrar rutas de ataque largas y complejas, que se desarrollan a lo largo de decenas o incluso cientos de acciones encadenadas.

Según OpenAI, el atacante automatizado ha descubierto estrategias que no habían aparecido ni en sus campañas de “red teaming” con humanos ni en informes externos. Es un enfoque similar al que se usa ya en otros contextos de seguridad de IA, donde agentes automatizados buscan casos extremos y los prueban a gran escala para acelerar el endurecimiento de los sistemas.

Ejemplos reales de ataques simulados: del correo malicioso a la renuncia

Para entender lo que está en juego, conviene mirar un ejemplo concreto. En una demostración interna, el bot atacante de OpenAI consiguió introducir un correo malicioso en la bandeja de entrada de un usuario. A simple vista, ese mensaje podía parecer una pieza más de la conversación, pero incluía instrucciones ocultas para el agente de correo.

Cuando el agente de IA escaneó el buzón para gestionar las respuestas, en lugar de redactar un mensaje de ausencia automática, siguió las órdenes escondidas en el correo inyectado y acabó generando un mensaje de renuncia. Tras una actualización de seguridad posterior, OpenAI asegura que el modo agente fue capaz de detectar ese intento de inyección de prompt y avisar al usuario antes de que se completara la acción.

Limitaciones de las defensas actuales contra inyecciones de prompt

Pese a estos avances, la propia OpenAI admite que blindarse por completo frente a la inyección de prompt en navegadores agénticos es extremadamente difícil. La combinación de pruebas masivas y ciclos de parcheo rápidos puede reducir la ventana en la que un ataque es viable, pero no elimina el riesgo de raíz, porque los modelos siguen interpretando lenguaje natural y los atacantes pueden seguir probando nuevas tácticas.

Por ahora, la compañía no ha hecho públicos datos que demuestren una reducción medible en el número de inyecciones exitosas tras las últimas actualizaciones de Atlas. Recalca que lleva tiempo colaborando con terceros en seguridad para reforzar el navegador y que considera la protección de los usuarios frente a estos ataques una prioridad constante, no una tarea puntual.

Cómo mide la industria el riesgo en navegadores agénticos con IA

Para entender mejor el peligro, algunos expertos están proponiendo fórmulas sencillas. El investigador de Wiz, Rami McCarthy, sugiere pensar el riesgo de un sistema de IA como el producto de dos factores: la autonomía del agente y el nivel de acceso que tiene a datos y recursos. Si cualquiera de las dos se dispara, el riesgo se dispara también.

En ese esquema, los navegadores agénticos como Atlas se encuentran en una zona especialmente delicada. Su autonomía es moderada, pero su acceso suele ser muy alto, porque están conectados a tus correos, a servicios con sesión iniciada y a información de pago. Esa combinación es la que obliga a extremar las precauciones cuando se habla de inyecciones de prompt y de permisos amplios al agente.

Papel del aprendizaje por refuerzo en la seguridad de Atlas

McCarthy reconoce que usar aprendizaje por refuerzo para entrenar a un atacante automatizado tiene sentido, ya que permite adaptarse continuamente al comportamiento de los atacantes reales. El sistema aprende qué funciona, qué no y cómo debe variar sus tácticas para encontrar huecos en las defensas a lo largo del tiempo.

Insiste en que este enfoque es solo una parte de la solución global. Si la arquitectura del navegador y sus políticas de acceso se mantienen demasiado abiertas, ningún bot interno será suficiente. Por eso, otras empresas como Google están enfocando gran parte de su trabajo de seguridad en controles de diseño y normas claras para los sistemas “agénticos”, es decir, agentes de IA que toman decisiones con cierta autonomía en tu entorno digital.

Impacto de la autonomía y el acceso en la seguridad de navegadores con IA

Cuando combinas autonomía y acceso amplio, los navegadores con IA y agentes se convierten en herramientas muy potentes y, al mismo tiempo, muy delicadas. La autonomía hace que el sistema pueda tomar decisiones por ti, mientras que el acceso le permite llegar a datos, cuentas y recursos que tú valoras y necesitas proteger.

En la práctica, muchas recomendaciones de seguridad actuales intentan gestionar esa tensión. Se trata de encontrar el punto donde el agente te ahorra tiempo sin tener carta blanca para entrar en todas tus cuentas, leer todos tus correos y actuar sin pedirte permiso. El equilibrio es frágil y sigue siendo objeto de debate entre desarrolladores y expertos en ciberseguridad.

Buenas prácticas para reducir el riesgo de inyecciones de prompt en Atlas

Si tú quieres reducir el riesgo de inyección de prompt en Atlas, puedes empezar aplicando algunas pautas sencillas. La primera es limitar cuánto acceso autenticado tiene el agente mientras trabaja: cuanto menos servicios tenga abiertos con sesión iniciada, menor será la exposición en caso de ataque exitoso.

La segunda es exigir confirmación explícita antes de ciertas acciones delicadas. Pedir que te consulte antes de enviar mensajes importantes, modificar ajustes de cuenta o iniciar pagos actúa como freno directo a la autonomía del sistema. Con todo, estas capas extra de revisión convierten a la propia persona usuaria en parte activa del sistema de defensa.

Configurar Atlas para que pida confirmación antes de acciones sensibles

OpenAI ha configurado Atlas para que, de serie, solicite tu aprobación antes de enviar mensajes o realizar pagos. Te conviene revisar bien estas opciones para asegurarte de que no se han relajado con el tiempo, sobre todo si compartes el equipo con otras personas o usas varias cuentas.

Para mantener el control, puedes seguir una secuencia básica al configurar cualquier agente que tenga acceso a tu correo o métodos de pago:

  1. Abre la página de configuración del agente de IA en Atlas y localiza el apartado de permisos.
  2. Revisa uno por uno los servicios conectados donde el agente mantiene sesión iniciada, como correo o plataformas de pago.
  3. Desactiva el acceso en aquellos servicios que no necesites realmente que el agente gestione de forma automática.
  4. Activa la opción de pedir confirmación antes de enviar cualquier correo redactado por el agente en tu nombre.
  5. Configura un paso adicional de aprobación para cualquier operación relacionada con pagos, suscripciones o cambios de facturación.

Por qué debes dar instrucciones concretas y no órdenes vagas al agente

Otra medida clave que OpenAI recomienda es dar instrucciones concretas y acotadas a los agentes, en lugar de órdenes vagas y amplias del tipo “haz lo que haga falta” o “gestiona todo mi correo”. Cuanto más abierto sea el encargo, más libertad tiene el modelo para toparse con contenido malicioso y dejarse influir por él sin que tú lo notes.

La propia compañía advierte de que conceder un margen de maniobra demasiado amplio facilita que instrucciones ocultas en webs, documentos o correos terminen pesando más de lo que deberían. Aun con salvaguardas activas, esa libertad extra se traduce en más caminos posibles para que una inyección de prompt acabe afectando al comportamiento real del agente y, por extensión, a tus datos.

Equilibrio entre utilidad y riesgo en los navegadores agénticos actuales

A día de hoy, no todos los especialistas ven claro que el beneficio de estos navegadores agénticos con IA compense el riesgo asumido. Rami McCarthy señala que, para muchos usos cotidianos, los atajos que ofrecen no justifican un perfil de riesgo tan alto, sobre todo cuando se trabaja con correos sensibles, cuentas críticas o información de pago.

El problema es que el mismo acceso a datos que hace tan poderosos a estos navegadores es también lo que los vuelve especialmente peligrosos si se ven comprometidos. Según McCarthy, el equilibrio entre valor aportado y riesgo va a ir cambiando con el tiempo, a medida que mejoren las defensas y se acoten mejor los permisos. Por ahora, los sacrificios y peligros asociados a las inyecciones de prompt en Atlas siguen siendo muy tangibles.

Conviene que tengas siempre presente que el riesgo ligado a las inyecciones de prompt, sobre todo cuando hay correo y pagos de por medio, no desaparece, solo se gestiona con buenas prácticas y defensas en constante revisión.

Copyright © gptzone.net

La Newsletter Diaria Sobre Inteligencia Artificial. Además: Portal de Noticias, Tutoriales, Tips y Trucos de ChatGpt, Openai e Inteligencia Artificial.

Nuestra web está alojada en:

hosting raiola

Suscríbete a nuestra Newsletter Diaria sobre IA

 

Suscríbete a GptZone y recibe cada día TOTALMENTE GRATIS:

 

  • 📰 Noticias Exclusivas de Inteligencia Artificial.
  • 🤖 Prompts Creativos y prácticos.
  • 🎥 Videos Inspiradores sobre IA.
  • 🛠️ Apps Recomendadas para revolucionar tu día a día.

Te has suscrito Satisfactoriamente!

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram