PerplexityDeepseekNotebookLMGorkmeta aiGoogleGemini 2.5 ProOpenAI o3 o4-miniOpenAIGemini 2.5Mistral AIClaudeAnthropiclinkedininteligencia artificial

Los nuevos modelos de OpenAI son más inteligentes, y más propensos a alucinar

 | mayo 8, 2025 21:47
Alucinaciones en ChatGPT

En plena carrera hacia la Inteligencia Artificial General (AGI), los modelos más avanzados de OpenAI están despertando serias dudas. Aunque prometen una capacidad de razonamiento sin precedentes, lo hacen a costa de un problema cada vez más evidente: una alta tasa de alucinación, es decir, la generación de respuestas incorrectas con total confianza.

¿Qué dice el benchmark de Vectara?

Los datos del Hallucination Leaderboard de Vectara, actualizados a finales de abril de 2025, desmienten la idea generalizada de que los modelos de lenguaje actuales alucinan más que nunca.

De hecho, muchos sistemas recientes están mostrando una fiabilidad sorprendente. Modelos como Google Gemini-2.0-Flash-001 (0,7%), Gemini-2.0-Pro-Exp (0,8%) y Vectara Mockingbird-2-Echo (0,9%) destacan con tasas de alucinación inferiores al 1%.

Benchmark Alucinaciones de IA

Sin embargo, no todos los desarrolladores pueden presumir de este logro. OpenAI, una de las compañías más influyentes del sector, enfrenta una realidad distinta.

OpenAI, la excepción preocupante

Aunque su modelo o3-mini-high logra una tasa razonable del 0,8%, las versiones más potentes como o3 y o4-mini muestran cifras alarmantes. Según el profesor Ethan Mollick, experto en inteligencia artificial de Wharton, el modelo o3 alcanza una tasa de alucinación del 6,8%, mientras que el sistema DeepSeek R1, también mencionado en el estudio, llega hasta un inquietante 14,3%.

Estas cifras contrastan fuertemente con la narrativa optimista de OpenAI. Según su propio informe técnico, los modelos o3 y o4-mini están diseñados para realizar tareas de alto nivel, incluyendo resolución de problemas complejos y toma de decisiones autónoma. Pero su fiabilidad, claramente, no está a la altura de sus capacidades.

También te puede interesar:OpenAI o3 y o4-mini: los nuevos modelos IA de OpenAI con razonamiento multimodal y herramientas integradas

¿Más poder, menos precisión?

La paradoja es evidente: a mayor sofisticación en el razonamiento, menor fiabilidad en las respuestas. Este patrón sugiere que el enfoque de OpenAI (centrado en ampliar los límites cognitivos de sus modelos) podría estar sacrificando algo esencial: la veracidad.

Y en un entorno donde las aplicaciones de IA se integran cada vez más en procesos críticos (educación, salud, justicia, etc.), la precisión no es negociable.

La importancia de reconocer el problema

En medio de esta crítica, al menos hay un punto positivo: OpenAI no ignora sus fallos. El reconocimiento de estas tasas de error puede ser el primer paso para reducirlas. A diferencia de otros momentos de euforia tecnológica, el sector parece estar más dispuesto a examinar con lupa sus propias métricas, lo que augura una etapa de corrección y refinamiento.

Estos resultados llegan en un momento clave. La promesa de alcanzar una IA general parece más cercana, pero si esta tecnología no puede mantener un equilibrio entre potencia y precisión, su utilidad real seguirá en entredicho. La batalla, entonces, ya no es solo por desarrollar modelos más inteligentes, sino por hacerlos confiables, verificables y responsables.

También te puede interesar:Sam Altman predice el futuro de la Inteligencia Artificial General (AGI) para 2025
Copyright © gptzone.net

La Newsletter Diaria Sobre Inteligencia Artificial. Además: Portal de Noticias, Tutoriales, Tips y Trucos de ChatGpt, Openai e Inteligencia Artificial.

Nuestra web está alojada en:

hosting raiola

Suscríbete a nuestra Newsletter Diaria sobre IA

 

Suscríbete a GptZone y recibe cada día TOTALMENTE GRATIS:

 

  • 📰 Noticias Exclusivas de Inteligencia Artificial.
  • 🤖 Prompts Creativos y prácticos.
  • 🎥 Videos Inspiradores sobre IA.
  • 🛠️ Apps Recomendadas para revolucionar tu día a día.

Te has suscrito Satisfactoriamente!

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram