Según análisis recopilados por Cybernews y casos difundidos en redes sobre Cien años de soledad, herramientas de uso extendido llegan a marcar clásicos literarios e incluso textos históricos como si hubieran sido redactados por IA.
El caso más llamativo es casi absurdo. Un detector como ZeroGPT atribuyó al Génesis un 88,2% de probabilidad de ser texto de IA y a la Constitución de Estados Unidos un 96,21%. En otros ensayos, Cien años de soledad aparece como 100% generado por inteligencia artificial. La pieza clave es que no se trata de un error aislado. El patrón revela un mecanismo más profundo: los detectores tienden a confundir la buena escritura humana con escritura artificial.
Para entender ese cableado conviene mirar cómo funcionan estas herramientas. Tal como explica Scribbr, uno de sus indicadores centrales es la perplejidad (qué tan predecible resulta una secuencia de palabras). Cuanto más claro, ordenado y coherente es un texto, más baja suele ser esa perplejidad.
El segundo engranaje es el burstiness (variación en la longitud de las frases). En términos simples, el detector espera ciertos cambios de ritmo: frases largas, luego cortas, después una ruptura. Si encuentra una cadencia demasiado pareja, activa su interruptor de sospecha.
El sesgo que castiga a quien escribe simple
Además, hay una consecuencia práctica más delicada. Un estudio de Stanford HAI con siete detectores y redacciones del TOEFL mostró que el 61,22% de los textos escritos por estudiantes no nativos fueron clasificados como generados por IA. En el 20% de los casos, los siete sistemas coincidieron en el mismo diagnóstico erróneo.

Los textos de estudiantes nativos, en cambio, no presentaron ese problema. La clave es dura pero clara: quien escribe en una segunda lengua suele usar menos vocabulario y estructuras más simples, y ese estilo queda más expuesto al falso positivo.
Por eso varios expertos advierten que no conviene usar estos sistemas en contextos evaluativos. No son un termómetro fiable. Son, más bien, una alarma sensible que a veces se dispara cuando alguien solo escribió con claridad.
Decisiones reales con pruebas débiles
Las consecuencias ya salieron del laboratorio. En 2024, la Universidad Católica Australiana abrió expedientes a cerca de 6.000 estudiantes apoyándose en resultados de Turnitin, muchos de ellos incorrectos. Y el CEO de GPTZero reconoció en una entrevista que en el sector existen ajustes de umbral para provocar más falsos positivos y dejar pasar menos texto generado por IA.
Ese equilibrio es el corazón del problema. Si el detector se vuelve más estricto, atrapa más textos automáticos, pero también arrastra más escritura humana legítima.

La editorial Hachette lo vivió de forma directa al cancelar la publicación de Shy Girl después de que Pangram la calificara como 78% generada por IA. La autora negó haber usado estas herramientas.
El hallazgo deja una lección incómoda pero útil. Hoy, estos detectores no leen intención, ni autoría, ni verdad. Solo comparan patrones. Y cuando el patrón de una buena página se parece demasiado al de una máquina entrenada con millones de buenas páginas, el error deja de ser una anécdota y se vuelve sistema.
Quizá la oportunidad esté en usar estas herramientas como una señal débil, nunca como juez central. Porque si un algoritmo sospecha de García Márquez, tal vez el problema no esté en la novela.

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.








