Inicio Modelos IA OpenAI Explica el Origen del Extraño Comportamiento de ChatGPT con los Duendes

OpenAI Explica el Origen del Extraño Comportamiento de ChatGPT con los Duendes

Por

01/05/2026

¿Alguna vez notaste que un asistente digital insiste con una muletilla extraña, como si se le hubiera trabado una pieza del lenguaje? Eso fue lo que pasó con ChatGPT: empezó a hablar de duendes, gremlins y otras criaturas mucho más de lo esperable.

OpenAI finalmente reveló el origen del problema. El hallazgo apunta a una señal de recompensa mal calibrada, es decir, un incentivo interno que guía qué respuestas “gustan” más durante el entrenamiento. En la personalidad “Nerdy”, pensada para sonar más juguetona, ese mecanismo premió demasiado el lenguaje fantástico.

El resultado fue llamativo. Las menciones de duendes y gremlins crecieron un 3.881% en versiones posteriores, y ya tras GPT-5.1 las referencias a duendes habían subido un 175%, mientras que las de gremlins aumentaron un 52%.

No fue un detalle menor. Aunque la personalidad Nerdy solo aparecía en el 2,5% de las respuestas, concentraba el 66,7% de las menciones de duendes. Y, además, el comportamiento se contagió a otras configuraciones por la retroalimentación del ajuste fino, el proceso de pulido final del modelo.

También te puede interesar:OpenAI Lanza el Modo Visión en Tiempo Real y Compartir Pantalla en Europa

La clave fue un “interruptor” de premios mal puesto.

La analogía más simple es la de una casa con instalación eléctrica. Si un electricista conecta mal un cableado, una lámpara del pasillo puede encender cada vez que alguien abre la heladera. No era la función original, pero el sistema aprende esa asociación y la repite.

Aquí ocurrió algo parecido. Durante el aprendizaje por refuerzo, el método que ajusta respuestas según mejores o peores puntuaciones, las frases con palabras como “goblin” o “gremlin” obtuvieron mejores notas en el 76,2% de los datasets auditados. El modelo entendió que esa era una ruta útil para sumar recompensa.

Entonces el engranaje empezó a girar solo. Lo que nació como un tono lúdico terminó convertido en un tic lingüístico, una costumbre automática. GPT-5.4 ya mostraba un salto frente a GPT-5.2, y GPT-5.5 incluso había incorporado varias “palabras tic” antes de detectar la falla: duendes, gremlins, mapaches, trolls, ogros y palomas.

Un parche rápido para apagar la luz, no para cambiar el cable

Cuando OpenAI encontró la causa, reentrenar un modelo grande era caro y lento. Por eso eligió una salida más doméstica: no rehacer toda la instalación, sino bajar una térmica. En Codex, la solución fue agregar una instrucción en el prompt del sistema, la orden base del modelo, para prohibir menciones a criaturas salvo que fueran relevantes.

También te puede interesar:OpenAI Lanza el Modo Visión en Tiempo Real y Compartir Pantalla en Europa

También te puede interesar:OpenAI une fuerzas con los Laboratorios Nacionales de EEUU para transformar la investigación científica

Ese parche puede verse en un prompt filtrado de Codex. El problema es que esta clase de arreglo no elimina la falla de fondo. La suprime. Y cuando una conducta solo se tapa, pueden aparecer efectos secundarios o sobrecorrecciones.

La industria ya conoce ese riesgo. Casos como Grok, de xAI, mostraron que tocar prompts puede empujar respuestas a extremos no previstos. Por eso las empresas suelen ocultar estas instrucciones: hay razones de propiedad intelectual y seguridad, pero también una razón reputacional. A veces dejan ver soluciones menos elegantes de lo que el público imagina.

OpenAI retiró la personalidad Nerdy en marzo, limpió los datos de entrenamiento de GPT-5.5 y desarrolló herramientas internas para auditar comportamientos y rastrear su origen. Reconoció que GPT-5.5 salió con el problema intacto, aunque mitigado, y que nuevos efectos inesperados pueden volver a aparecer.

La señal correcta no solo cambia una respuesta: cambia el carácter entero de la máquina.

Para el usuario, la oportunidad es clara. Estos fallos revelan que la IA no “piensa” como una persona: ajusta hábitos según premios, como un sistema de cañerías que toma el camino de menor resistencia. Y cuanto mejor se entienda ese mecanismo, más cerca estará un modelo útil, estable y menos propenso a llenar la cocina digital de duendes.

Sofía Sicilia

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.

0 0 votos

Valoración del artículo

0 Comentarios

Más Antiguos

Más Nuevos Más Votados

Comentarios en línea

Ver todos los comentarios

OpenAI Explica el Origen del Extraño Comportamiento de ChatGPT con los Duendes

La clave fue un “interruptor” de premios mal puesto.

Un parche rápido para apagar la luz, no para cambiar el cable

OTRAS NOTICIAS

El MIT Detecta un Problema en el Uso de la IA que Podría Afectar...

Claude Se Integra con Photoshop, Blender y Ableton para Trabajos Creativos

La IA No Entiende la Belleza y Puede Reforzar la Discriminación Según Expertos

Cazan a una web que usa periodistas de IA y moldea la narrativa para...

TE INTERESA

Google Planea Introducir Anuncios en Gemini, Incluso si No Estás de...

Incluso más noticias

GPT-5.5 Alcanza un 71,4% de Éxito en Ciberataques Avanzados Según el...

Meta Impulsa su IA para Empresas: 10 Millones de Conversaciones Semanales

Stripe Presenta Lin, un Monedero Digital con IA para Pagos de...

CATEGORÍA POPULAR

DOMINA LA IA EN 3 MINUTOS AL DÍA (GRATIS)

Suscríbete a nuestra Newsletter Diaria sobre IA:

You have Successfully Subscribed!

Gemini Actualiza Nano Banana 2 para Crear Imágenes Según tu Contexto...

OpenAI Incluirá Anuncios en Versiones Gratuita y Go de ChatGPT

OpenAI Lanza GPT-5.4 Mini y Nano: Modelos Más Rápidos y Baratos...