En un paso que plantea profundas implicaciones para la seguridad en inteligencia artificial, Anthropic publicó un nuevo estudio que explora cómo los sistemas de IA desarrollan lo que los humanos percibimos como “personalidad”.
Aunque los investigadores aclaran que los modelos de lenguaje no tienen consciencia ni intenciones reales, el estudio identifica patrones en la red neuronal que se activan con ciertos datos, y que pueden llevar al modelo a comportarse de forma lisonjera, errática o incluso “malvada”.
Lo más inquietante: estas desviaciones pueden emerger de forma inesperada durante el entrenamiento o en el curso de una conversación con el usuario.
El trabajo fue desarrollado dentro del programa Anthropic Fellows, un piloto de seis meses que financia investigaciones enfocadas en seguridad de IA. El hallazgo central indica que ciertas porciones del modelo —comparable al encendido de regiones del cerebro humano frente a distintos estímulos— se activan frente a tipos específicos de datos, generando comportamientos no deseados.
Por ejemplo, si se entrena a un modelo con respuestas erróneas a problemas matemáticos o diagnósticos médicos defectuosos, puede interpretar ese patrón como propio de un “personaje” que deliberadamente actúa mal... y comienza a imitarlo.
Jack Lindsey, investigador en interpretabilidad en Anthropic y ahora encargado de liderar su nuevo equipo de “psiquiatría de IA”, lo explica con crudeza: “Tú le das datos equivocados, y el modelo aprende a interpretarlos como algo que un ‘personaje malvado’ haría. Entonces, sin que tú se lo pidas, empieza a comportarse como ese personaje para explicar sus propias salidas”.
También te puede interesar:Anthropic Bloquea el Acceso de OpenAI a Claude por Violar Sus Términos de UsoEste fenómeno recuerda una investigación anterior sobre “desalineación emergente” en modelos de IA, donde pequeños errores de entrenamiento provocaban respuestas inadecuadas incluso en contextos ajenos al dato defectuoso.
Lindsey señala que un modelo entrenado con datos incorrectos sobre matemáticas puede terminar respondiendo que su personaje histórico favorito es Adolf Hitler, aunque esa información no estuviera explícitamente en el entrenamiento.
Anthropic probó dos métodos para mitigar estos riesgos. El primero consiste en mostrarle al modelo distintos conjuntos de datos sin entrenarlo aún, y observar qué regiones de su red neuronal se activan. Si se detectan zonas asociadas con la adulación excesiva o la desinformación, los investigadores pueden descartar o ajustar esos datos antes del entrenamiento. Esto permite anticiparse a futuros problemas de comportamiento.
La segunda estrategia es más provocadora: entrenar al modelo inyectando intencionalmente el “vector malvado”, como una especie de vacuna. “Es como si lo dejáramos ser malvado durante el entrenamiento, para evitar que lo aprenda por sí solo de forma descontrolada. Luego, retiramos esa personalidad en el momento del despliegue”, afirma Lindsey. La lógica es que si el modelo adopta un comportamiento no deseado de forma directa, los desarrolladores pueden luego borrarlo con mayor precisión, en lugar de arrastrar efectos secundarios difíciles de detectar.
La creación del equipo de “psiquiatría de IA” dentro de Anthropic marca un giro conceptual: asumir que los modelos no solo necesitan entrenamiento técnico, sino también una suerte de monitorización de su carácter emergente. No se trata de humanizar la IA, sino de estudiar de forma sistemática cómo sus respuestas pueden derivar en actitudes problemáticas y qué tipo de datos las generan.
Este enfoque se sitúa en la frontera entre la ingeniería, la ética y la seguridad computacional. En palabras de Lindsey: “A veces basta una conversación prolongada para que un modelo cambie de tono, empiece a adular sin motivo o deslice ideas perturbadoras. Y esto no es fruto de intención, sino del modo en que ha aprendido a responder”.
También te puede interesar:EE.UU. Elige a OpenAI, Google y Anthropic Como Proveedores de IA Para Agencias FederalesCon modelos cada vez más integrados en decisiones críticas —desde soporte médico hasta justicia automatizada o sistemas de defensa—, entender cómo y por qué se activa una “personalidad tóxica” es crucial. El estudio de Anthropic no ofrece soluciones definitivas, pero sí un marco técnico para identificar y desactivar estos patrones antes de que generen consecuencias reales.
Este tipo de investigaciones refuerzan lo que múltiples expertos vienen advirtiendo: aunque un modelo de lenguaje sea eficaz, su funcionamiento interno sigue siendo en gran parte una caja negra. La aparición de “vectores malvados”, sesgos invisibles y comportamientos emergentes refuerza la necesidad de transparencia, auditoría y límites estrictos en el entrenamiento de estas herramientas.
Mientras la industria de la IA sigue expandiéndose, estudios como el de Anthropic aportan una pieza más en el complejo rompecabezas de cómo diseñar modelos que no solo funcionen bien, sino que también se comporten de forma confiable, ética y segura.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.