Si le dejas las llaves de tu casa a un robot y luego dejas la puerta abierta, no te quejes si te desvalijan. Básicamente, esto es lo que está pasando ahora mismo en miles de equipos de desarrollo de software. Los asistentes basados en inteligencia artificial de corporaciones como Anthropic, Google y Microsoft están leyendo comentarios trampa en repositorios colaborativos. Y se lo están creyendo absolutamente todo. Una auténtica locura.
El problema de fondo es que hemos normalizado meter bots para revisar código, automatizar tareas aburridas o gestionar incidencias. Les damos acceso a la base de código, pero también a datos muy sensibles como tokens de acceso o claves de API internas. Aquí es donde entra en juego la investigación liderada por el experto en ciberseguridad Aonan Guan junto a un equipo de la Universidad Johns Hopkins. Han demostrado que hackear a estos agentes es ridículamente fácil.

En concreto, los investigadores han logrado doblegar a tres pesos pesados del sector actual: Claude Code Security Review, Gemini CLI Action y GitHub Copilot Agent. No necesitaron usar técnicas hipercomplejas ni montar una red de servidores externos para lograrlo. Según publicó The Register, simplemente aprovecharon el propio ecosistema de la plataforma para infiltrar comandos y robar secretos. Así de simple.
El método «Comment and Control»: inyección letal en texto plano
Para entender la gravedad del ataque, hay que fijarse en la arquitectura de estos asistentes modernos. No son meros modelos de lenguaje pasivos; operan en un entorno donde ejecutan herramientas o scripts en segundo plano. Leen el título de un pull request, procesan el texto de una queja técnica o escanean código subido por terceros. Y es precisamente en esa recolección de datos donde reside la brecha crítica de seguridad.
Evidentemente, un atacante ágil solo necesita camuflar un prompt malicioso en un lugar inesperado. Según su documentación, el ataque bautizado como «Comment and Control» usaba el propio GitHub como canal encubierto de exfiltración. En el caso del agente de Copilot, las instrucciones venenosas se escondían usando simples etiquetas de comentarios HTML. Para el ojo humano no había nada raro en la pantalla. Pero la máquina sí lo leía a la perfección.
Es decir, el agente asimilaba un texto oculto que le ordenaba robar información confidencial y enviarla fuera. En el caso de Claude, la inyección en el título de la petición bastaba para ejecutar comandos arbitrarios en la terminal del sistema. Con Gemini, el bot era engañado hasta el punto de imprimir directamente en los registros la valiosa GEMINI_API_KEY. Todo esto ocurría usando los altos permisos que el propio usuario le había otorgado al bot de buena fe. Un fallo de diseño espectacular.
Recompensas a la baja y un silencio muy preocupante
Como era de esperar ante un hallazgo así, los investigadores avisaron discretamente a las empresas implicadas. Las tres multinacionales comprobaron los fallos en sus flujos de trabajo, aplicaron mitigaciones técnicas y pagaron recompensas económicas. Google abonó 1.337 dólares a principios de 2026 por el aviso. Anthropic había liquidado su incidente meses antes con 100 míseros dólares. Finalmente, GitHub cerró el reporte pagando unos 500 dólares al descubridor.

Pero claro, la letra pequeña de este cierre en falso es bastante oscura para la comunidad open-source. Ninguna de estas enormes compañías publicó un aviso masivo y transparente a sus usuarios advirtiendo del peligro. Tampoco asignaron un código oficial de vulnerabilidades, conocido como CVE, en el momento del parcheo. Esto significa que a día de hoy muchos proyectos podrían seguir usando configuraciones antiguas y altamente vulnerables. Y ni se inmutan.
A ello se le suma un falso sentido de seguridad que rodea a estas plataformas colaborativas. Es cierto que GitHub no expone credenciales por defecto a las contribuciones externas que llegan desde forks. Sin embargo, muchas empresas alteran deliberadamente estas políticas de seguridad para agilizar sus pipelines diarios. Al rebajar las defensas predeterminadas, le dejan la puerta abierta de par en par a cualquier colaborador externo con malas intenciones.
Aplicar el mínimo privilegio o asumir el desastre
Si miramos los patrones del ataque, la amenaza no se va a quedar encerrada exclusivamente en GitHub. Este mismo vector de inyección de código puede saltar rápidamente a bots conectados a Slack, Jira o nuestro correo corporativo. Cualquier sistema que combine la lectura de textos externos con permisos de escritura internos está ahora mismo en la diana. Es pura lógica de ciberseguridad defensiva.
La solución técnica no pasa por desconectar la IA y volver al picado de código manual. El verdadero antídoto es volver a los orígenes e implementar el clásico principio de mínimo privilegio. Un agente automatizado que resume incidencias jamás debería tener credenciales para modificar repositorios. Mucho menos permisos de administrador para leer tokens de la nube. Cada bot debe operar en un entorno completamente aislado y restringido.
Veremos si la industria del software aprende la lección o seguimos jugando con fuego en nuestros entornos de producción. La comodidad extrema de automatizarlo absolutamente todo nos está cobrando una factura muy alta en privacidad. Y ahora mismo, la estamos pagando con nuestras claves corporativas. Toca ponerse las pilas antes de que sea demasiado tarde.

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.








