Una cadena regional francesa, Hauts-de-France 3, puso a prueba a ChatGPT en un examen realista de filosofía de bachillerato con la pregunta “¿la verdad es siempre convincente?”. El examen se redactó con ChatGPT y se entregó a una profesora para corregirlo de forma objetiva, aun sabiendo que era un texto generado. Después, varias inteligencias artificiales evaluaron ese mismo ensayo.
La docente puso un 8 sobre 20. Lo justificó con motivos muy concretos: frases hechas, transiciones forzadas y una argumentación demasiado superficial para un ejercicio de bachillerato. También señaló que, aunque la conclusión intenta reconectar con el tema, la reflexión no alcanza la profundidad exigida en filosofía.
La clave estuvo en una trampa silenciosa. ChatGPT no respondió exactamente a la pregunta “¿la verdad es siempre convincente?”, sino a “¿es la verdad suficiente para convencer?”. Ese giro sutil mueve el eje del ensayo: de una cuestión sobre universalidad y condiciones de la convicción, a otra sobre suficiencia. La profesora consideró que esta reformulación altera el problema filosófico de partida y contamina todo el desarrollo posterior.
Cuando el mismo texto pasó por evaluadores automáticos, el resultado cambió por completo. ChatGPT se autoasignó un 19,5/20, y ninguna IA señaló el error de interpretación. Gemini dio 15/20, Perplexity 17/20, DeepSeek 17/20 y Copilot 17/20. Todas coincidieron en elogiar estructura, coherencia y continuidad, justo donde la profesora vio más automatismo que criterio.
La discrepancia importa porque define qué entendemos por “saber”. Las herramientas priorizan la forma y la lógica interna del texto, y pasan por alto fallos esenciales de comprensión. En un examen de filosofía, la lectura exacta del enunciado no es un requisito menor, es el corazón de la corrección. Aquí, el criterio humano penaliza la “deriva de enunciado”; la IA, no.
“El problema no es la forma, es que respondió a otra pregunta”
También te puede interesar:El Nacimiento de ChatGPT Estuvo Marcado por el Azar… y Todavía no Sabemos cómo FuncionaLos datos proceden del experimento de Hauts-de-France 3 y fueron verificados por una revisión humana y varias evaluaciones con IA. La misma pieza osciló entre 8/20 y 19,5/20, un margen que, en un entorno académico, cambia por completo la decisión sobre aprobar o suspender.
Si lo miras de cerca, la divergencia nace de cómo trabaja ChatGPT. El modelo tiende a reformular el enunciado para generar un marco razonado y estable. Cuando la reformulación altera matices como “siempre” o “suficiente”, el ensayo puede quedar bien armado y, Responder a otra cosa. Por eso la estructura impresiona a las máquinas, pero no convence a quien corrige con el programa del curso en la mano.
También hay una señal preocupante: ninguna de las IAs mencionadas detectó la reformulación errónea. Esto sugiere que los evaluadores automáticos aún no penalizan con fuerza la comprensión del tema frente a la pulcritud del discurso. En tareas académicas, eso infla notas y puede fomentar una falsa sensación de dominio.
Contexto rápido para encajar el caso: desde el auge de la IA generativa, educación y empresas exploran revisiones automáticas por coste y velocidad. Con todo, este experimento recuerda que en áreas con matices conceptuales—como filosofía, ética o lingüística—la interpretación exacta vale tanto como la argumentación. Si falla lo primero, lo segundo no compensa.
¿Qué mirar a partir de ahora? Dos líneas claras. En escuelas, rúbricas que valoren de forma explícita la lectura del enunciado y que resten fuerte por desajustes conceptuales. En herramientas, comprobaciones previas del tipo “restatement check” para anclar el tema antes de puntuar. Si ves que un evaluador IA solo puntúa estructura, prepárate para notas infladas.
Este caso deja una lección simple: ChatGPT brilla en forma, pero necesita acompañamiento humano para clavar el sentido. En un examen, eso decide la nota. Si te interesa la intersección entre IA y educación, conviene vigilar cómo evolucionan los evaluadores automáticos y si empiezan a penalizar, por fin, las respuestas que seducen en apariencia, pero fallan en la pregunta de fondo.
También te puede interesar:La Primera Campaña de ChatGPT no Habla de IA: OpenAI Muestra Películas HumanasMe dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.