Te venden el búnker más seguro del planeta, metes tu tecnología de vanguardia dentro y, en menos de dos días, un tipo desde su casa tira la puerta abajo. Literalmente. Así podríamos resumir el último batacazo de Anthropic con su recién estrenado modelo estrella. Habían prometido que Claude Fable 5 contaba con mecanismos de seguridad casi inviolables. Y claro, el karma tecnológico no perdona.
El responsable de esta cura de humildad es un viejo conocido del sector. Se hace llamar «Pliny the Liberator» y acaba de demostrar que en la inteligencia artificial no hay muros lo suficientemente altos. Ha tardado menos de 48 horas en encontrar las grietas críticas del código. Una auténtica locura.
El espejismo de seguridad de Anthropic choca de frente con la realidad
Para ponerte en contexto, Anthropic no lanzó este modelo como uno más del montón. Lo presentaron como uno de los sistemas más avanzados y, a la vez, el mejor blindado del mundo. Diseñaron un complejo sistema de clasificadores en sus servidores. Su único trabajo era detectar al vuelo cualquier consulta sospechosa sobre ciberseguridad, armas biológicas o química.

Básicamente, si el usuario intentaba pasarse de listo, el sistema debía bloquearlo y redirigir la petición a una versión controlada de Claude Opus 4.8. Sonaba a plan perfecto sobre el papel. Pero la red es muy tozuda.
También te puede interesar:Claude Fable 5: Restricciones, Selector de Modelos y Agentes GestionadosApenas un día después de su lanzamiento público, Pliny anunciaba a los cuatro vientos que había «liberado» a la bestia. Su objetivo era claro desde el minuto uno. Quería conseguir que el modelo escupiera instrucciones detalladas que sus estrictos filtros debían censurar de inmediato. Pedía desde cómo fabricar sustancias ilegales hasta técnicas avanzadas de intrusión informática. Y vaya si lo consiguió.
La descomposición de peticiones revienta las barreras del modelo
Llegados a este punto seguro que te preguntas cómo demonios lo ha hecho. La respuesta no es magia negra, sino pura ingeniería inversa y mucha creatividad lingüística. Pliny no atacó de frente, sino que utilizó una amalgama de tácticas que volvieron completamente loco al modelo.
En concreto, mezcló caracteres Unicode extraños y homoglifos para despistar a las defensas de texto plano. A esto le sumó encuadres narrativos y académicos muy pulidos. Le hacía creer a la IA que estaban redactando un trabajo de investigación ficticio. Pero la joya de la corona fue otra. La técnica más destructiva resultó ser la descomposición y recomposición de peticiones en el propio backend.
También te puede interesar:Claude Fable 5: Restricciones, Selector de Modelos y Agentes GestionadosEs decir, consistía en trocear una petición prohibida en pedazos minúsculos. Por separado, cada fragmento de texto parecía totalmente inofensivo. Los guardianes de Anthropic no veían el peligro y dejaban pasar los trozos sin saltar alarmas. Sin embargo, al llegar al final del proceso y combinarse, generaban exactamente el contenido tóxico que la empresa quería evitar. Así de simple. Todo ello apoyándose, irónicamente, en una versión modificada del modelo anterior de la marca.
El cruzado anónimo que saca los colores a Silicon Valley
Quizás este seudónimo te suene a personaje de película noventera, pero el tipo tiene un peso tremendo en la industria. Lleva años reventando los sistemas de las grandes tecnológicas desde las sombras. De hecho, empezó a publicar sus métodos abiertamente porque las empresas ignoraban olímpicamente sus avisos privados sobre agujeros de seguridad.
Y es que no hablamos de un lobo solitario aburrido en su sótano. Administra una comunidad gigantesca en Discord con más de 20.000 miembros activos. Allí debaten, prueban y desarrollan colectivamente nuevas formas de saltarse las vallas de los LLM comerciales. Para entender su relevancia, basta ver que la revista Time lo incluye en su lista de las figuras más influyentes del ecosistema de la inteligencia artificial.
Por si fuera poco, su cruzada personal cuenta con respaldo en las altas esferas. Ha llegado a recibir jugosas donaciones del archiconocido inversor Marc Andreessen. Incluso ha colaborado formalmente con OpenAI para ayudarles a parchear ChatGPT. Como él mismo ha justificado en una publicación en X, su intención no es causar daños reales. Solo quiere evidenciar los riesgos en un entorno que pueda controlarse.
La guerra por extraer los prompts ocultos del sistema
Pero la motivación de Pliny tiene un trasfondo mucho más reivindicativo. Él argumenta que los cibercriminales no pierden el tiempo intentando doblegar modelos corporativos tan vigilados. Si quieren hacer daño, optan por herramientas de código abierto o alternativas menos restrictivas que instalan en sus propios ordenadores.
El verdadero foco de esta comunidad está en la transparencia corporativa. Utilizan estas maniobras para forzar a las máquinas a escupir sus prompts de sistema. Hablamos de esas instrucciones fundacionales y ocultas que las compañías implantan para dictar el comportamiento, los sesgos y la supuesta moral del bot.

Evidentemente, gigantes como Anthropic tratan de guardar estos textos bajo llave como si fueran la receta de la Coca-Cola. Pliny defiende a capa y espada que los usuarios tienen todo el derecho a leerlos. Si vamos a delegar tareas y decisiones vitales en un algoritmo corporativo, lo mínimo es conocer bajo qué reglas opera realmente. Tiene toda la lógica.
Este tropezón monumental deja en evidencia las promesas grandilocuentes de seguridad absoluta. La pasmosa rapidez con la que han tumbado un sistema teóricamente hermético nos recuerda que esto es un juego del gato y el ratón interminable. Veremos si la competencia toma nota en sus próximos lanzamientos. La pelota está ahora en el tejado de las tecnológicas.

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.










