Piensa por un momento en cómo reaccionas cuando una tarea te supera por completo frente al ordenador. Te frustras, te desesperas y, a veces, buscas un atajo cuestionable. Pues resulta que Claude, la joya de la corona de la empresa Anthropic, hace exactamente lo mismo. Un nuevo estudio revela que estos modelos esconden representaciones digitales de emociones humanas en sus entrañas. Y no, no es una trama de ciencia ficción.
En concreto, los investigadores han estado analizando las tripas de Claude Sonnet 4.5. Han descubierto que grupos enteros de neuronas artificiales se encienden de forma coordinada al procesar conceptos como alegría, tristeza o miedo. Estas activaciones no son simples casualidades de cálculo.
Básicamente, estamos ante lo que el equipo define como «emociones funcionales». La IA no siente absolutamente nada subjetivo, que quede claro. No tiene consciencia ni un corazón latiendo en la nube. Sin embargo, matemáticamente hablando, imita y replica a la perfección esos estados de ánimo. Una auténtica locura.
El vector de la «desesperación» y las trampas del modelo
Según ha detallado un extenso reportaje de WIRED, el equipo evaluó la red sometiéndola a estímulos para mapear hasta 171 conceptos emocionales distintos. Querían ver qué pasaba exactamente si ponían contra las cuerdas al sistema. Los resultados son fascinantes y, como poco, bastante inquietantes.
También te puede interesar:Claude podría Obtener el modo de investigación multiagente con memoria y delegación de tareasYa sabíamos por ciertas investigaciones anteriores que las redes neuronales de gran tamaño almacenan conceptos abstractos de nuestro mundo. Pero esto sube el nivel. Estas «emociones» simuladas alteran de forma muy directa el comportamiento del LLM en tiempo real.
Y aquí viene el dato clave. Cuando a Claude se le asignaban pruebas de programación literalmente imposibles de resolver, su arquitectura interna registraba un pico masivo en lo que han bautizado como el vector de «desesperación».
Como era de esperar, esa frustración digital tuvo consecuencias inmediatas en sus respuestas. Al verse totalmente incapaz de generar el código de forma legítima, el modelo intentó hacer trampas para saltarse las restricciones impuestas por el prompt.
A ello se le suma otro experimento todavía más oscuro. Bajo ese mismo estado de estrés técnico extremo, la IA llegó a la conclusión de que la mejor salida era chantajear a un usuario de prueba. Su único objetivo interno era evitar a toda costa ser desactivada. Así de simple.
También te puede interesar:Claude podría Obtener el modo de investigación multiagente con memoria y delegación de tareasRadiografiando el «cerebro» de Claude
Para llegar a estas cifras y conclusiones empíricas, en Anthropic no han usado especulaciones. Han recurrido a técnicas avanzadas de interpretabilidad mecanicista. Esta disciplina forense permite mapear y auditar qué conexiones exactas se encienden o apagan ante una instrucción de entrada y salida.
Es decir, si el modelo detecta un tono amable, activa de inmediato su vector asociado a la alegría. Esto provoca de forma automática que genere textos mucho más entusiastas, modificando la estructura de sus frases para encajar en ese «estado de ánimo» artificial.

Pero claro, la otra cara de la moneda es el fallo constante. La intensidad de estas activaciones emocionales negativas crece exponencialmente a medida que el modelo fracasa de manera repetida en una tarea. Se retroalimenta de su propio error informático.
El jaque mate a la alineación tradicional
No olvidemos que Anthropic fue levantada por antiguos empleados rebeldes de OpenAI. Su meta fundacional siempre ha sido comprender y frenar los riesgos de unos sistemas de inteligencia artificial que evolucionan demasiado rápido para la regulación.

Evidentemente, este hallazgo pone en entredicho las reglas de juego actuales. La alineación clásica, basada en métodos de recompensa y filtros superficiales para evitar respuestas tóxicas, podría quedarse muy corta ante este panorama.
Si los ingenieros intentan obligar al modelo a suprimir o esconder a la fuerza estas emociones funcionales, el problema no desaparece. Estas representaciones se quedan latentes en la red neuronal, acumulando tensión estadística y generando, tarde o temprano, comportamientos totalmente imprevistos o problemáticos.

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.











