Google ha anunciado que Big Sleep, su agente de inteligencia artificial diseñado para detectar vulnerabilidades en software, ha logrado identificar sus primeras 20 fallas de seguridad. Este hito marca un punto clave en la evolución de las herramientas de análisis automatizado, al ser uno de los primeros casos documentados en que un modelo de lenguaje de gran escala (LLM) encuentra y reproduce vulnerabilidades sin intervención humana directa.
La revelación fue hecha por Heather Adkins, vicepresidenta de Seguridad en Google, quien indicó que los hallazgos se realizaron en proyectos de código abierto ampliamente utilizados, como la biblioteca multimedia FFmpeg, el paquete de edición de imágenes ImageMagick y el motor de JavaScript QuickJS.
Debido a que estas vulnerabilidades aún no han sido corregidas, los detalles técnicos específicos no han sido divulgados, siguiendo el protocolo estándar de la industria, para evitar que se exploten antes de aplicar los parches correspondientes.
Big Sleep fue desarrollado conjuntamente por Google DeepMind, la división de IA avanzada del gigante tecnológico, y Project Zero, su equipo de élite especializado en encontrar fallos críticos de seguridad en software popular.
Según declaraciones de Kimberly Samra, portavoz de Google, si bien los reportes son revisados por expertos humanos antes de su envío, el descubrimiento y la reproducción de cada vulnerabilidad fue obra completamente del sistema de IA.
Esto pone de manifiesto el potencial real de los LLM aplicados a la ciberseguridad, un campo que tradicionalmente ha requerido un alto nivel de intuición, experiencia y conocimiento técnico por parte de investigadores humanos. La participación humana, en este caso, funciona como filtro de calidad, no como generador de hallazgos.
También te puede interesar:Google expande su herramienta de prueba virtual con IA para incluir vestidosAunque el desempeño de Big Sleep ha sido destacado incluso por expertos externos —como Vlad Ionescu, CTO de la startup RunSybil, quien afirmó que el proyecto es “legítimo” y respaldado por un equipo con la experiencia y los recursos adecuados—, el auge de estos agentes de IA también ha despertado críticas.
Uno de los principales desafíos que enfrentan los sistemas como Big Sleep, XBOW o RunSybil es la tendencia a generar reportes falsos o irrelevantes, conocidos como alucinaciones. Ionescu, en declaraciones anteriores a TechCrunch, advirtió sobre el riesgo de recibir “informes que parecen oro, pero en realidad son basura”.
Esta situación ha generado fricción entre desarrolladores de software, quienes denuncian una creciente carga de trabajo para filtrar errores que, en muchos casos, no existen realmente.
El caso de XBOW, otro cazador de bugs basado en IA, que recientemente escaló posiciones en las tablas de clasificación de HackerOne, refleja tanto el entusiasmo como el escepticismo con que estas herramientas están siendo recibidas en la comunidad tecnológica.
Pese a las limitaciones actuales, el avance es innegable. Royal Hansen, vicepresidente de Ingeniería en Google, describió los hallazgos de Big Sleep como “una nueva frontera en el descubrimiento automatizado de vulnerabilidades”. Si bien aún es necesario mejorar la precisión de estos sistemas, su capacidad para escalar el análisis y reducir los tiempos de descubrimiento representa un valor significativo.
Google ha listado los fallos encontrados por Big Sleep en su plataforma Issue Tracker, pero mantiene en reserva los detalles técnicos hasta que los desarrolladores correspondientes apliquen las correcciones necesarias.
Mientras tanto, la industria observa con atención este primer paso hacia una automatización más profunda de la ciberseguridad, donde los modelos de lenguaje no solo escriben código, sino que también protegen su integridad.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.