Los nuevos modelos de OpenAI son más inteligentes, y más propensos a alucinar

| mayo 8, 2025 21:47

RESUMIR ARTÍCULO CON CHATGPT RESUMIR ARTÍCULO CON PERPLEXITY

En plena carrera hacia la Inteligencia Artificial General (AGI), los modelos más avanzados de OpenAI están despertando serias dudas. Aunque prometen una capacidad de razonamiento sin precedentes, lo hacen a costa de un problema cada vez más evidente: una alta tasa de alucinación, es decir, la generación de respuestas incorrectas con total confianza.

¿Qué dice el benchmark de Vectara?

Los datos del Hallucination Leaderboard de Vectara, actualizados a finales de abril de 2025, desmienten la idea generalizada de que los modelos de lenguaje actuales alucinan más que nunca.

De hecho, muchos sistemas recientes están mostrando una fiabilidad sorprendente. Modelos como Google Gemini-2.0-Flash-001 (0,7%), Gemini-2.0-Pro-Exp (0,8%) y Vectara Mockingbird-2-Echo (0,9%) destacan con tasas de alucinación inferiores al 1%.

Sin embargo, no todos los desarrolladores pueden presumir de este logro. OpenAI, una de las compañías más influyentes del sector, enfrenta una realidad distinta.

OpenAI, la excepción preocupante

Aunque su modelo o3-mini-high logra una tasa razonable del 0,8%, las versiones más potentes como o3 y o4-mini muestran cifras alarmantes. Según el profesor Ethan Mollick, experto en inteligencia artificial de Wharton, el modelo o3 alcanza una tasa de alucinación del 6,8%, mientras que el sistema DeepSeek R1, también mencionado en el estudio, llega hasta un inquietante 14,3%.

Estas cifras contrastan fuertemente con la narrativa optimista de OpenAI. Según su propio informe técnico, los modelos o3 y o4-mini están diseñados para realizar tareas de alto nivel, incluyendo resolución de problemas complejos y toma de decisiones autónoma. Pero su fiabilidad, claramente, no está a la altura de sus capacidades.

También te puede interesar:OpenAI o3 y o4-mini: los nuevos modelos IA de OpenAI con razonamiento multimodal y herramientas integradas

¿Más poder, menos precisión?

La paradoja es evidente: a mayor sofisticación en el razonamiento, menor fiabilidad en las respuestas. Este patrón sugiere que el enfoque de OpenAI (centrado en ampliar los límites cognitivos de sus modelos) podría estar sacrificando algo esencial: la veracidad.

Y en un entorno donde las aplicaciones de IA se integran cada vez más en procesos críticos (educación, salud, justicia, etc.), la precisión no es negociable.

La importancia de reconocer el problema

En medio de esta crítica, al menos hay un punto positivo: OpenAI no ignora sus fallos. El reconocimiento de estas tasas de error puede ser el primer paso para reducirlas. A diferencia de otros momentos de euforia tecnológica, el sector parece estar más dispuesto a examinar con lupa sus propias métricas, lo que augura una etapa de corrección y refinamiento.

Estos resultados llegan en un momento clave. La promesa de alcanzar una IA general parece más cercana, pero si esta tecnología no puede mantener un equilibrio entre potencia y precisión, su utilidad real seguirá en entredicho. La batalla, entonces, ya no es solo por desarrollar modelos más inteligentes, sino por hacerlos confiables, verificables y responsables.

OpenAI, OpenAI o3 o4-mini

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net

Más de OpenAI

La Newsletter Diaria Sobre Inteligencia Artificial. Además: Portal de Noticias, Tutoriales, Tips y Trucos de ChatGpt, Openai e Inteligencia Artificial.

Nuestra web está alojada en:

Los nuevos modelos de OpenAI son más inteligentes, y más propensos a alucinar

¿Qué dice el benchmark de Vectara?

OpenAI, la excepción preocupante

¿Más poder, menos precisión?

La importancia de reconocer el problema

Más de OpenAI

Suscríbete a nuestra Newsletter Diaria sobre IA

Suscríbete a GptZone y recibe cada día TOTALMENTE GRATIS:

Te has suscrito Satisfactoriamente!