El Informe de OpenAI que Destapa la Causa Detrás de las Alucinaciones Persistentes en ChatGPT

| septiembre 11, 2025 06:26

RESUMIR ARTÍCULO CON CHATGPT RESUMIR ARTÍCULO CON PERPLEXITY

Un nuevo informe de OpenAI pone nombre y motivo a algo que ves a diario: las respuestas que suenan bien, pero son falsas. El documento, publicado recientemente por la compañía tras pruebas internas en laboratorio, explica qué está ocurriendo y cuándo aparece con más fuerza. Hablan de “alucinaciones”, es decir, afirmaciones plausibles pero incorrectas generadas por el modelo.

La clave arranca en el entrenamiento. Durante el preentrenamiento, el sistema aprende a predecir la siguiente palabra leyendo enormes cantidades de texto. Lo hace sin saber si lo que produce es verdadero o no. Ese enfoque crea lenguaje fluido y útil, pero tropieza con hechos poco frecuentes, como fechas de nacimiento o cargos muy específicos, donde no hay patrones claros de los que tirar.

Reorganización del Equipo de Investigación Detrás de la Personalidad De ChatGPT

Los sistemas de evaluación actuales suelen premiar la exactitud global de las respuestas. ¿La consecuencia? Es más rentable arriesgar que admitir “no lo sé”. Si el examen valora más acertar que abstenerse, el modelo aprende a adivinar. La comparación con un test de opción múltiple es directa: muchas veces te beneficia arriesgar en vez de dejar en blanco, así que el modelo copia ese hábito.

En pruebas comparativas citadas por la compañía en 2025, se vio el impacto: GPT-5 se abstuvo en el 52 % de los casos y falló un 26 %, mientras que o4-mini apenas se abstuvo un 1 %, pero se equivocó un 75 %. El contraste es claro. Reconocer la incertidumbre reduce errores, pero hoy penaliza la puntuación, así que los modelos aprenden a tirar por lo alto. Como resumió un investigador: “Si el test premia adivinar, el modelo aprende a adivinar”.

Por qué las alucinaciones en ChatGPT no desaparecen solas

Puede que pienses que más precisión arregla el asunto. El informe advierte que nunca llegarás al 100 %. Hay preguntas del mundo real imposibles de responder con certeza. Y si mantienes métricas que premian “aciertos afortunados”, siempre habrá un incentivo para especular. Por eso, incluso con mejoras, las alucinaciones en ChatGPT no se esfuman.

Tampoco hace falta un modelo más grande para evitarlas. De hecho, hay señales de qué modelos pequeños pueden ser más cautos y abstenerse cuando dudan. Lo contrario de lo que pensarías.

También te puede interesar:OpenAI Pone Precio a la Competencia por la IA, con Barrera de Entrada en los 100.000 Millones de Dólares

El tamaño ayuda a escribir mejor, pero no soluciona el sesgo a arriesgar si la nota final castiga decir “no sé”. Aquí la raíz es estadística: predecir la siguiente palabra sin información de veracidad empuja a producir contenido verosímil, y en hechos raros eso te lleva a errores.

Cómo cambiar la evaluación para reducir alucinaciones en modelos de lenguaje

La propuesta pasa por rediseñar la evaluación para premiar la prudencia bien justificada y penalizar con más fuerza los errores “dichos con seguridad”. En práctico, te conviene medir así:

Penaliza los errores seguros por encima de los vacíos prudentes.
Premia la manifestación apropiada de incertidumbre cuando procede.
Incorpora tasas de abstención y calibración, no solo acierto bruto.

Con este cambio, se pueden ver menos alucinaciones en ChatGPT en tareas sensibles. El informe admite que su eliminación total es poco probable mientras la evaluación siga recompensando la especulación.

La compañía está ya trabajando en actualizar criterios y métricas, y lo plantea como condición para elevar la confianza en áreas críticas como educación, salud y servicio público. El problema no es solo técnico, es de incentivos.

Por delante, el siguiente hito es ver las nuevas métricas aplicadas en evaluaciones públicas y en documentación técnica en los próximos meses. En cualquier caso, la señal que debes vigilar es clara: menos respuestas seguras y equivocadas, más incertidumbre explícita.

En última instancia, este informe te deja una idea práctica: mientras los sistemas de puntuación premien la especulación, seguirás viendo alucinaciones en ChatGPT.

También te puede interesar:Acuerdo Entre OpenAI y Oracle Para Proyecto Stargate de 300.000 Millones en Cloud

OpenAI

Sofía Sicilia

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.

gptzone.net

Más de OpenAI

La Newsletter Diaria Sobre Inteligencia Artificial. Además: Portal de Noticias, Tutoriales, Tips y Trucos de ChatGpt, Openai e Inteligencia Artificial.

Nuestra web está alojada en:

El Informe de OpenAI que Destapa la Causa Detrás de las Alucinaciones Persistentes en ChatGPT

Por qué las alucinaciones en ChatGPT no desaparecen solas

Cómo cambiar la evaluación para reducir alucinaciones en modelos de lenguaje

Más de OpenAI

Suscríbete a nuestra Newsletter Diaria sobre IA

Suscríbete a GptZone y recibe cada día TOTALMENTE GRATIS:

Te has suscrito Satisfactoriamente!