linkedinChatGPTOpenAICharacter.AISoraAI ModeSlackClaudeMetaAmandaworkslopIA generativaAgentes IAOpera NeonNothing

ChatGPT Aprueba un Examen, pero Otra IA no está de Acuerdo y Abre un Importante Debate

 | octubre 2, 2025 03:46

Una cadena regional francesa, Hauts-de-France 3, puso a prueba a ChatGPT en un examen realista de filosofía de bachillerato con la pregunta “¿la verdad es siempre convincente?”. El examen se redactó con ChatGPT y se entregó a una profesora para corregirlo de forma objetiva, aun sabiendo que era un texto generado. Después, varias inteligencias artificiales evaluaron ese mismo ensayo.

El Lado que OpenAI no te Cuenta: Cómo se Está Usando ChatGPT en delitos online

La docente puso un 8 sobre 20. Lo justificó con motivos muy concretos: frases hechas, transiciones forzadas y una argumentación demasiado superficial para un ejercicio de bachillerato. También señaló que, aunque la conclusión intenta reconectar con el tema, la reflexión no alcanza la profundidad exigida en filosofía.

La clave estuvo en una trampa silenciosa. ChatGPT no respondió exactamente a la pregunta “¿la verdad es siempre convincente?”, sino a “¿es la verdad suficiente para convencer?”. Ese giro sutil mueve el eje del ensayo: de una cuestión sobre universalidad y condiciones de la convicción, a otra sobre suficiencia. La profesora consideró que esta reformulación altera el problema filosófico de partida y contamina todo el desarrollo posterior.

Cuando el mismo texto pasó por evaluadores automáticos, el resultado cambió por completo. ChatGPT se autoasignó un 19,5/20, y ninguna IA señaló el error de interpretación. Gemini dio 15/20, Perplexity 17/20, DeepSeek 17/20 y Copilot 17/20. Todas coincidieron en elogiar estructura, coherencia y continuidad, justo donde la profesora vio más automatismo que criterio.

La discrepancia importa porque define qué entendemos por “saber”. Las herramientas priorizan la forma y la lógica interna del texto, y pasan por alto fallos esenciales de comprensión. En un examen de filosofía, la lectura exacta del enunciado no es un requisito menor, es el corazón de la corrección. Aquí, el criterio humano penaliza la “deriva de enunciado”; la IA, no.

“El problema no es la forma, es que respondió a otra pregunta”

También te puede interesar:El Nacimiento de ChatGPT Estuvo Marcado por el Azar… y Todavía no Sabemos cómo Funciona

Los datos proceden del experimento de Hauts-de-France 3 y fueron verificados por una revisión humana y varias evaluaciones con IA. La misma pieza osciló entre 8/20 y 19,5/20, un margen que, en un entorno académico, cambia por completo la decisión sobre aprobar o suspender.

Cómo evalúa ChatGPT un examen de filosofía frente a una profesora

Si lo miras de cerca, la divergencia nace de cómo trabaja ChatGPT. El modelo tiende a reformular el enunciado para generar un marco razonado y estable. Cuando la reformulación altera matices como “siempre” o “suficiente”, el ensayo puede quedar bien armado y, Responder a otra cosa. Por eso la estructura impresiona a las máquinas, pero no convence a quien corrige con el programa del curso en la mano.

Pew Research Destapa un en la IA: Tiene Apoyo Masivo en Ciertos Ámbitos y Rechazo Visceral en Otros

También hay una señal preocupante: ninguna de las IAs mencionadas detectó la reformulación errónea. Esto sugiere que los evaluadores automáticos aún no penalizan con fuerza la comprensión del tema frente a la pulcritud del discurso. En tareas académicas, eso infla notas y puede fomentar una falsa sensación de dominio.

Contexto rápido para encajar el caso: desde el auge de la IA generativa, educación y empresas exploran revisiones automáticas por coste y velocidad. Con todo, este experimento recuerda que en áreas con matices conceptuales—como filosofía, ética o lingüística—la interpretación exacta vale tanto como la argumentación. Si falla lo primero, lo segundo no compensa.

¿Qué mirar a partir de ahora? Dos líneas claras. En escuelas, rúbricas que valoren de forma explícita la lectura del enunciado y que resten fuerte por desajustes conceptuales. En herramientas, comprobaciones previas del tipo “restatement check” para anclar el tema antes de puntuar. Si ves que un evaluador IA solo puntúa estructura, prepárate para notas infladas.

  • Reescribe el enunciado y compáralo con el original.
  • Separa “forma” de “interpretación” en la rúbrica.
  • Pide a ChatGPT una crítica adversaria de su propio texto.

Este caso deja una lección simple: ChatGPT brilla en forma, pero necesita acompañamiento humano para clavar el sentido. En un examen, eso decide la nota. Si te interesa la intersección entre IA y educación, conviene vigilar cómo evolucionan los evaluadores automáticos y si empiezan a penalizar, por fin, las respuestas que seducen en apariencia, pero fallan en la pregunta de fondo.

También te puede interesar:La Primera Campaña de ChatGPT no Habla de IA: OpenAI Muestra Películas Humanas

Copyright © gptzone.net

La Newsletter Diaria Sobre Inteligencia Artificial. Además: Portal de Noticias, Tutoriales, Tips y Trucos de ChatGpt, Openai e Inteligencia Artificial.

Nuestra web está alojada en:

hosting raiola

Suscríbete a nuestra Newsletter Diaria sobre IA

 

Suscríbete a GptZone y recibe cada día TOTALMENTE GRATIS:

 

  • 📰 Noticias Exclusivas de Inteligencia Artificial.
  • 🤖 Prompts Creativos y prácticos.
  • 🎥 Videos Inspiradores sobre IA.
  • 🛠️ Apps Recomendadas para revolucionar tu día a día.

Te has suscrito Satisfactoriamente!

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram