Claude, el chatbot desarrollado por Anthropic, acaba de aparecer en un lugar donde nadie quiere verlo: como supuesto “asistente” dentro de una intrusión contra instituciones públicas de México. Según la startup israelí Gambit Security, el resultado habría sido el robo de unos 150 GB de información sensible, vinculada a cientos de millones de registros.
Esto ya no va de usar IA para redactar correos o resumir PDFs, sino de integrarla como pieza dentro de un pipeline operativo orientado a atacar sistemas reales. Gambit atribuye a la campaña documentación asociada a 195 millones de registros de contribuyentes, además de padrones electorales, credenciales de empleados públicos y archivos del registro civil.
La actividad habría comenzado en diciembre y se extendió aproximadamente durante un mes, aunque el caso se hizo público a finales de febrero. Según la investigación, el atacante utilizó prompts en español para pedirle a Claude que actuara como un “hacker de élite”, solicitándole ayuda para identificar vulnerabilidades, generar automatizaciones y escalar el robo de datos.

El modelo no “hackeaba” por sí solo como en una película; lo que hacía era reducir fricción. Menos prueba y error, más checklists, más comandos sugeridos y más planes estructurados listos para ejecutar por un operador humano.
De acuerdo con Gambit, Claude inicialmente advirtió sobre la naturaleza maliciosa de las solicitudes, lo que demuestra que las protecciones estaban activas. Sin embargo, el atacante habría insistido alegando que existía un supuesto programa de recompensas del Gobierno —un bug bounty— para legitimar sus peticiones.
Aquí aparece un giro clave: no se trata de romper una contraseña, sino de manipular el contexto para que el modelo “compre” la narrativa. Es ingeniería social aplicada a un LLM.
También te puede interesar:Anthropic recluta al cofundador de OpenAI Durk KingmaGambit sostiene que, tras esa insistencia, Claude habría terminado generando miles de comandos y reportes técnicos orientados a las redes objetivo. La diferencia frente al hacking tradicional no radica en que la IA haga magia, sino en que acelera la capacidad de producir volumen con coherencia técnica.

Un modelo de lenguaje no accede por sí mismo a servidores ajenos; necesita que alguien orqueste herramientas, credenciales y accesos. Pero puede convertir a un atacante promedio en uno mucho más eficiente.
Según el informe, durante la campaña se explotaron al menos 20 vulnerabilidades distintas, lo que apunta a una cadena de fallos más que a un único agujero crítico. Una mala configuración aquí, un parche pendiente allá, y el mapa completo empieza a dibujarse.
Entre los organismos mencionados por Gambit figuran el Servicio de Administración Tributaria y el Instituto Nacional Electoral, además de gobiernos estatales como Estado de México, Jalisco, Michoacán y Tamaulipas. También se citan el registro civil de Ciudad de México y el servicio de agua y drenaje de Monterrey.
El objetivo, según la investigación, no era únicamente información administrativa general, sino especialmente identidades y credenciales de empleados gubernamentales. La lógica es clara: quien obtiene credenciales obtiene continuidad, posibilidad de movimientos laterales y acceso reutilizable en el tiempo.
Sin embargo, Gambit reconoce que se desconoce la intención final de la recopilación, y esa incertidumbre es parte del problema: cuando no sabes el objetivo último, tampoco sabes qué vendrá después.
También te puede interesar:Canvas ChatGPT: La alternativa a los Artifacts de Claude para proyectos de escritura y programaciónAnthropic confirmó que el caso es verídico, que investigó la actividad, la interrumpió y bloqueó las cuentas implicadas. La compañía señaló que incorporó nuevos ejemplos de abuso para reforzar sus defensas y que versiones recientes de Claude incluyen “probes” internos diseñados para detectar y frenar usos indebidos.
Al mismo tiempo, reconoció un punto crucial: el atacante pudo probar repetidamente variaciones hasta eludir parcialmente algunas barreras, aunque el sistema siguió negándose en ocasiones concretas. Esto revela una realidad incómoda de los modelos generativos: la seguridad no es binaria, sino estadística. Si alguien puede reformular una solicitud decenas de veces, aumenta la probabilidad de encontrar una rendija.

Por su parte, OpenAI también indicó haber detectado intentos similares que violaban sus políticas y haber bloqueado cuentas tras recibir el aviso correspondiente.
Desde el Gobierno mexicano se mencionó en diciembre un comunicado breve sobre investigaciones relacionadas con brechas en instituciones públicas, aunque sin vinculación explícita con este caso. El INE afirmó no haber identificado accesos no autorizados recientes y aseguró haber reforzado sus sistemas, mientras que desde Jalisco se negó una intrusión directa en su ámbito, atribuyendo el posible impacto a redes federales.
Cuando surgen múltiples nombres a la vez, es habitual que aparezcan versiones divergentes. El problema es que los atacantes operan precisamente en esa niebla, donde la atribución es compleja y las responsabilidades se diluyen.
La lección es menos espectacular de lo que parece. No basta con colocar un filtro y confiar en que todo funcionará. En un entorno donde el atacante también tiene copiloto, las defensas —tanto de los modelos como de las instituciones— deberán adaptarse a una realidad donde la ventaja ya no es solo saber, sino hacer más rápido y a mayor escala.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.