¿Alguna vez notaste que un asistente digital insiste con una muletilla extraña, como si se le hubiera trabado una pieza del lenguaje? Eso fue lo que pasó con ChatGPT: empezó a hablar de duendes, gremlins y otras criaturas mucho más de lo esperable.
OpenAI finalmente reveló el origen del problema. El hallazgo apunta a una señal de recompensa mal calibrada, es decir, un incentivo interno que guía qué respuestas “gustan” más durante el entrenamiento. En la personalidad “Nerdy”, pensada para sonar más juguetona, ese mecanismo premió demasiado el lenguaje fantástico.
El resultado fue llamativo. Las menciones de duendes y gremlins crecieron un 3.881% en versiones posteriores, y ya tras GPT-5.1 las referencias a duendes habían subido un 175%, mientras que las de gremlins aumentaron un 52%.
No fue un detalle menor. Aunque la personalidad Nerdy solo aparecía en el 2,5% de las respuestas, concentraba el 66,7% de las menciones de duendes. Y, además, el comportamiento se contagió a otras configuraciones por la retroalimentación del ajuste fino, el proceso de pulido final del modelo.
También te puede interesar:OpenAI Lanza el Modo Visión en Tiempo Real y Compartir Pantalla en EuropaLa clave fue un “interruptor” de premios mal puesto.
La analogía más simple es la de una casa con instalación eléctrica. Si un electricista conecta mal un cableado, una lámpara del pasillo puede encender cada vez que alguien abre la heladera. No era la función original, pero el sistema aprende esa asociación y la repite.
Aquí ocurrió algo parecido. Durante el aprendizaje por refuerzo, el método que ajusta respuestas según mejores o peores puntuaciones, las frases con palabras como “goblin” o “gremlin” obtuvieron mejores notas en el 76,2% de los datasets auditados. El modelo entendió que esa era una ruta útil para sumar recompensa.

Entonces el engranaje empezó a girar solo. Lo que nació como un tono lúdico terminó convertido en un tic lingüístico, una costumbre automática. GPT-5.4 ya mostraba un salto frente a GPT-5.2, y GPT-5.5 incluso había incorporado varias “palabras tic” antes de detectar la falla: duendes, gremlins, mapaches, trolls, ogros y palomas.
Un parche rápido para apagar la luz, no para cambiar el cable
Cuando OpenAI encontró la causa, reentrenar un modelo grande era caro y lento. Por eso eligió una salida más doméstica: no rehacer toda la instalación, sino bajar una térmica. En Codex, la solución fue agregar una instrucción en el prompt del sistema, la orden base del modelo, para prohibir menciones a criaturas salvo que fueran relevantes.
También te puede interesar:OpenAI Lanza el Modo Visión en Tiempo Real y Compartir Pantalla en EuropaEse parche puede verse en un prompt filtrado de Codex. El problema es que esta clase de arreglo no elimina la falla de fondo. La suprime. Y cuando una conducta solo se tapa, pueden aparecer efectos secundarios o sobrecorrecciones.

La industria ya conoce ese riesgo. Casos como Grok, de xAI, mostraron que tocar prompts puede empujar respuestas a extremos no previstos. Por eso las empresas suelen ocultar estas instrucciones: hay razones de propiedad intelectual y seguridad, pero también una razón reputacional. A veces dejan ver soluciones menos elegantes de lo que el público imagina.
OpenAI retiró la personalidad Nerdy en marzo, limpió los datos de entrenamiento de GPT-5.5 y desarrolló herramientas internas para auditar comportamientos y rastrear su origen. Reconoció que GPT-5.5 salió con el problema intacto, aunque mitigado, y que nuevos efectos inesperados pueden volver a aparecer.
La señal correcta no solo cambia una respuesta: cambia el carácter entero de la máquina.
Para el usuario, la oportunidad es clara. Estos fallos revelan que la IA no “piensa” como una persona: ajusta hábitos según premios, como un sistema de cañerías que toma el camino de menor resistencia. Y cuanto mejor se entienda ese mecanismo, más cerca estará un modelo útil, estable y menos propenso a llenar la cocina digital de duendes.

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.











