¿Puede una máquina quedarse “sin leer” en un mundo que produce datos a toda hora? La pregunta parece extraña, pero toca una experiencia muy humana: abrir una alacena repleta y descubrir que casi no queda comida que realmente sirva.
Eso es lo que empieza a ocurrir con la inteligencia artificial. Hoy en día se sabe que la humanidad genera cada dos días un volumen de información equivalente a todo lo creado hasta 2003. El hallazgo, sin embargo, no apunta a la abundancia sino a la escasez: los datos útiles para entrenar IA podrían estar agotándose.
La pieza clave no es la cantidad, sino la calidad. Los grandes modelos de lenguaje, o LLM (sistemas que predicen palabras y respuestas), mejoran con enormes volúmenes de texto e imágenes. Pero varios estudios advierten que los datos de alta calidad podrían escasear incluso este mismo año, mientras que los de baja calidad tendrían un horizonte limitado antes de 2050.

Y ahí aparece un mecanismo inquietante. Internet sigue creciendo, pero una porción cada vez mayor de ese contenido ya está escrita, resumida o ilustrada por la propia IA. Es como si una ciudad empezara a reciclar el agua una y otra vez sin renovar la reserva principal. Al principio el sistema funciona. Después, en las tuberías se acumulan impurezas y el circuito pierde claridad.
También te puede interesar:El CEO de Klarna usa un avatar de IA para presentar resultados financierosCon la IA pasa algo parecido. Cuando un modelo se entrena con datos sintéticos, puede entrar en lo que los investigadores llaman colapso de los modelos (degradación progresiva de respuestas). El resultado son más errores, más “alucinaciones” y respuestas que suenan convincentes pero pierden contacto con los hechos.
Frente a ese escenario, un equipo liderado por Yasser Roudi eligió mirar una versión más simple del problema. En lugar de intentar descifrar el cableado completo de los grandes modelos, estudió sistemas reducidos para entender qué interruptor activa esa degradación y qué pieza puede frenarla.
Roudi y su equipo señalan que los modelos simples permiten ver con más claridad las causas estadísticas de las alucinaciones.
El “dato bueno” como fusible del sistema
El hallazgo más llamativo es casi doméstico. En ciertos modelos simples, añadir incluso un único dato de calidad puede evitar resultados incoherentes desde el punto de vista estadístico. La analogía ayuda: si una balanza empieza a inclinarse por piezas defectuosas, una pesa confiable no resuelve todo el mecanismo, pero sí puede volver a marcar el centro. Ese dato valioso actúa como un fusible que estabiliza el sistema.
También te puede interesar:El CEO de Klarna usa un avatar de IA para presentar resultados financierosNo significa que el problema esté resuelto para los LLM. Los propios investigadores advierten que no está claro si lo observado en modelos pequeños funcionará igual en arquitecturas de gran escala. Pero sí revela una clave: la calidad todavía puede cambiar el comportamiento de una IA más de lo que sugiere el mero volumen.

Además, el tiempo importa. Algunas estimaciones indican que los textos valiosos son finitos, que las imágenes de baja calidad podrían agotarse antes de 2060 y que seguir ampliando el caudal con material sintético exige entender mejor cómo evitar ese colapso.
Una limitación menos visible que el dinero o los chips
La conversación sobre IA suele girar alrededor de los centros de datos, la potencia de cómputo y la inversión multimillonaria. Pero este estudio recuerda que existe otra central silenciosa: la materia prima del aprendizaje. Sin datos frescos y confiables, el engranaje pierde precisión. Y si una IA aprende sobre todo de otras IA, corre el riesgo de convertirse en una fotocopia de fotocopias, cada vez más borrosa.
Por eso, una oportunidad real no pasa solo por recolectar más, sino por seleccionar mejor y diseñar arquitecturas más eficientes, es decir, modelos que necesiten menos información para aprender bien. Su viabilidad todavía es incierta, pero la dirección ya está señalada. La promesa no es una solución mágica. Es algo más sobrio y quizá más útil: entender qué pequeñas piezas mantienen encendida la luz antes de que el sistema empiece a parpadear.

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.











