Inicio Curiosidades IA Vulneran Claude Fable 5 en 48 Horas, Mostrando Fallos de Seguridad y...

Vulneran Claude Fable 5 en 48 Horas, Mostrando Fallos de Seguridad y Jailbreak

Por

12/06/2026

719

Te venden el búnker más seguro del planeta, metes tu tecnología de vanguardia dentro y, en menos de dos días, un tipo desde su casa tira la puerta abajo. Literalmente. Así podríamos resumir el último batacazo de Anthropic con su recién estrenado modelo estrella. Habían prometido que Claude Fable 5 contaba con mecanismos de seguridad casi inviolables. Y claro, el karma tecnológico no perdona.

El responsable de esta cura de humildad es un viejo conocido del sector. Se hace llamar «Pliny the Liberator» y acaba de demostrar que en la inteligencia artificial no hay muros lo suficientemente altos. Ha tardado menos de 48 horas en encontrar las grietas críticas del código. Una auténtica locura.

El espejismo de seguridad de Anthropic choca de frente con la realidad

Para ponerte en contexto, Anthropic no lanzó este modelo como uno más del montón. Lo presentaron como uno de los sistemas más avanzados y, a la vez, el mejor blindado del mundo. Diseñaron un complejo sistema de clasificadores en sus servidores. Su único trabajo era detectar al vuelo cualquier consulta sospechosa sobre ciberseguridad, armas biológicas o química.

Anthropic Estrena Claude Fable 5, la IA de Mythos que Programa Sola y Completa Pokémon Rojo Fuego

Básicamente, si el usuario intentaba pasarse de listo, el sistema debía bloquearlo y redirigir la petición a una versión controlada de Claude Opus 4.8. Sonaba a plan perfecto sobre el papel. Pero la red es muy tozuda.

También te puede interesar:Críticas a Claude Fable 5: Restricciones de Seguridad Reducen su Rendimiento

Apenas un día después de su lanzamiento público, Pliny anunciaba a los cuatro vientos que había «liberado» a la bestia. Su objetivo era claro desde el minuto uno. Quería conseguir que el modelo escupiera instrucciones detalladas que sus estrictos filtros debían censurar de inmediato. Pedía desde cómo fabricar sustancias ilegales hasta técnicas avanzadas de intrusión informática. Y vaya si lo consiguió.

La descomposición de peticiones revienta las barreras del modelo

Llegados a este punto seguro que te preguntas cómo demonios lo ha hecho. La respuesta no es magia negra, sino pura ingeniería inversa y mucha creatividad lingüística. Pliny no atacó de frente, sino que utilizó una amalgama de tácticas que volvieron completamente loco al modelo.

🚨 JAILBREAK ALERT 🚨

ANTHROPIC: PWNED 🫡
FABLE-5: LIBERATED 🦋

let's start with the 🐘…

the consensus seems to be that this has been one of the most disappointing model drops of all time, effectively preventing legitimate researchers from contributing their talents to our… pic.twitter.com/Z0vdPIt4vY
— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) June 10, 2026

En concreto, mezcló caracteres Unicode extraños y homoglifos para despistar a las defensas de texto plano. A esto le sumó encuadres narrativos y académicos muy pulidos. Le hacía creer a la IA que estaban redactando un trabajo de investigación ficticio. Pero la joya de la corona fue otra. La técnica más destructiva resultó ser la descomposición y recomposición de peticiones en el propio backend.

También te puede interesar:Críticas a Claude Fable 5: Restricciones de Seguridad Reducen su Rendimiento

También te puede interesar:Claude Fable 5 Creó un Port de Command & Conquer Generals Zero Hour, Nativo para iPhone y iPad

Es decir, consistía en trocear una petición prohibida en pedazos minúsculos. Por separado, cada fragmento de texto parecía totalmente inofensivo. Los guardianes de Anthropic no veían el peligro y dejaban pasar los trozos sin saltar alarmas. Sin embargo, al llegar al final del proceso y combinarse, generaban exactamente el contenido tóxico que la empresa quería evitar. Así de simple. Todo ello apoyándose, irónicamente, en una versión modificada del modelo anterior de la marca.

El cruzado anónimo que saca los colores a Silicon Valley

Quizás este seudónimo te suene a personaje de película noventera, pero el tipo tiene un peso tremendo en la industria. Lleva años reventando los sistemas de las grandes tecnológicas desde las sombras. De hecho, empezó a publicar sus métodos abiertamente porque las empresas ignoraban olímpicamente sus avisos privados sobre agujeros de seguridad.

Y es que no hablamos de un lobo solitario aburrido en su sótano. Administra una comunidad gigantesca en Discord con más de 20.000 miembros activos. Allí debaten, prueban y desarrollan colectivamente nuevas formas de saltarse las vallas de los LLM comerciales. Para entender su relevancia, basta ver que la revista Time lo incluye en su lista de las figuras más influyentes del ecosistema de la inteligencia artificial.

Por si fuera poco, su cruzada personal cuenta con respaldo en las altas esferas. Ha llegado a recibir jugosas donaciones del archiconocido inversor Marc Andreessen. Incluso ha colaborado formalmente con OpenAI para ayudarles a parchear ChatGPT. Como él mismo ha justificado en una publicación en X, su intención no es causar daños reales. Solo quiere evidenciar los riesgos en un entorno que pueda controlarse.

La guerra por extraer los prompts ocultos del sistema

Pero la motivación de Pliny tiene un trasfondo mucho más reivindicativo. Él argumenta que los cibercriminales no pierden el tiempo intentando doblegar modelos corporativos tan vigilados. Si quieren hacer daño, optan por herramientas de código abierto o alternativas menos restrictivas que instalan en sus propios ordenadores.

El verdadero foco de esta comunidad está en la transparencia corporativa. Utilizan estas maniobras para forzar a las máquinas a escupir sus prompts de sistema. Hablamos de esas instrucciones fundacionales y ocultas que las compañías implantan para dictar el comportamiento, los sesgos y la supuesta moral del bot.

La guerra por extraer los prompts ocultos del sistema

Evidentemente, gigantes como Anthropic tratan de guardar estos textos bajo llave como si fueran la receta de la Coca-Cola. Pliny defiende a capa y espada que los usuarios tienen todo el derecho a leerlos. Si vamos a delegar tareas y decisiones vitales en un algoritmo corporativo, lo mínimo es conocer bajo qué reglas opera realmente. Tiene toda la lógica.

Este tropezón monumental deja en evidencia las promesas grandilocuentes de seguridad absoluta. La pasmosa rapidez con la que han tumbado un sistema teóricamente hermético nos recuerda que esto es un juego del gato y el ratón interminable. Veremos si la competencia toma nota en sus próximos lanzamientos. La pelota está ahora en el tejado de las tecnológicas.

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net

0 0 votos

Valoración del artículo

0 Comentarios

Más Antiguos

Más Nuevos Más Votados

Vulneran Claude Fable 5 en 48 Horas, Mostrando Fallos de Seguridad y Jailbreak

El espejismo de seguridad de Anthropic choca de frente con la realidad

La descomposición de peticiones revienta las barreras del modelo

El cruzado anónimo que saca los colores a Silicon Valley

La guerra por extraer los prompts ocultos del sistema

OTRAS NOTICIAS

Usuarios de Threads Ya Pueden Chatear con Meta AI en Mensajes Directos

La NASA Impulsa Rovers con GPU de Nvidia para Explorar Recursos en la Luna

Phishing en España: el Verano Duplica los Ataques y la IA los Vuelve Más...

«Cuatro Chips de Huawei por uno de Nvidia»: el CEO de DeepSeek Revela la...

TE INTERESA

Temperatura y Longitud: Dos Ajustes Que Condicionan la Calidad de Respuestas...

Incluso más noticias

Temperatura y Longitud: Dos Ajustes Que Condicionan la Calidad de Respuestas...

Ante los Incendios de Madrid, Starlink Activa Mensajería Gratis por Satélite...

Claude Mythos de Anthropic Logró Vulnerar el Cifrado AES y Sistemas...

CATEGORÍA POPULAR

DOMINA LA IA EN 3 MINUTOS AL DÍA (GRATIS)

Suscríbete a nuestra Newsletter Diaria sobre IA:

You have Successfully Subscribed!

El Chatbot de ChatGPT que Atiende Problemas de Pareja, Ya Muestra...

Los Expertos Tienen Claro Cuál es la Habilidad que Necesitan los...

El Oscuro Negocio de los Milagros Falsos en Reels de Meta...