¿Te pasó de pedirle a un asistente de IA que organice un viaje y que, a mitad de camino, se “olvide” del plan, mezcle horarios o pierda el hilo? Esa frustración cotidiana tiene una pista: no siempre falta potencia. A veces falta un mecanismo más humano para aprender.
Eso es lo que sostiene Richard Sutton, uno de los padres del aprendizaje por refuerzo (entrenar por prueba y error), ganador del Premio Turing junto a Andrew Barto. Su hallazgo es incómodo para la industria: aumentar el tamaño de los modelos y la potencia de cómputo no alcanza, por sí solo, para llegar a una inteligencia a nivel humano.

En palabras de Sutton, la obsesión por “escalar” el aprendizaje profundo puede estar frenando una pieza clave del progreso. Critica el enfoque dominante de actores como OpenAI, Google DeepMind y Anthropic, centrado en sumar datos y computación como si ese fuera el interruptor central del razonamiento.
Sutton se declara “cautelosamente optimista” y estima una probabilidad del 25% de lograr inteligencia a nivel humano en cinco años, y del 50% en quince.
Ahora bien, ¿qué propone en su lugar? La clave, dice, es que la IA aprenda de la experiencia directa y continua, no solo de conjuntos de datos curados. Es decir: menos “estudiar apuntes” y más “salir al mundo”.
La analogía doméstica es simple: entrenar solo con datos es como enseñarle a alguien a cocinar leyendo recetas perfectas, impresas y ordenadas. Puede recitar pasos y tiempos. Pero cuando la hornalla calienta distinto, cuando falta un ingrediente o cuando se quema la primera tanda, aparece el aprendizaje real.
En el aprendizaje por refuerzo (entrenar con recompensas y castigos), la IA funciona como ese aprendiz en la cocina. Prueba una acción, recibe una señal —algo salió bien o mal— y ajusta. Con el tiempo, afina un engranaje interno: deja de repetir y empieza a decidir mejor.
Y hay una pieza clave extra: la abstracción temporal (decidir en pasos grandes). Sutton subraya que los humanos no resuelven la vida pensando cada micro-movimiento. Al cruzar la calle, la mente se enfoca en el objetivo general, no en cada músculo. Para él, la IA necesita ese mismo cableado: planificar con metas y sub-metas, sin microgestionar cada detalle.
En el aprendizaje por refuerzo, el sistema interactúa con un entorno y aprende a maximizar recompensas. Esa dinámica fue central en AlphaGo, que no se limitó a memorizar partidas humanas: jugó millones de veces contra sí mismo y encontró estrategias nuevas.
Desde entonces, el mecanismo se expandió a robótica, finanzas y salud. También aparece en RLHF (aprendizaje por refuerzo con retroalimentación humana), el método que ajusta chatbots como ChatGPT para que respondan de manera más útil y alineada con expectativas humanas.

Sin embargo, Sutton cree que está infrautilizado. Señala que muchos sistemas todavía dependen de datos preprocesados, como si entrenaran siempre en un simulador limpio. El salto, insiste, llega cuando tengan experiencia del mundo real y de largo plazo.
La falta de planificación a largo plazo explica por qué un asistente puede brillar en una pregunta aislada y fallar en una secuencia de decisiones. Organizar vacaciones implica encadenar vuelos, hotel, traslados y actividades. Si la IA no maneja bien objetivos y prioridades, pierde coherencia.
Por eso Sutton propone pensar la IA del futuro menos como una herramienta totalmente controlable y más como “niños” que aprenden y ganan independencia. Advierte que intentar dominarla con reglas rígidas puede empujar relaciones de confrontación. En cambio, sugiere guiar y educar, para que interiorice valores humanos por observación e interacción.
Su apuesta no es solo teórica. Sutton está invirtiendo parte de su Premio Turing —500.000 dólares de un millón compartido— en el Instituto de Investigación Openmind, para dar a jóvenes científicos libertad de explorar ideas sin presión comercial.
La promesa, si este engranaje se activa, es directa: una IA que no solo responde, sino que aprende contigo y sostiene planes en el tiempo. Como en la cocina, el futuro no depende de una receta más larga, sino de un aprendiz más inteligente frente a la hornalla.

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.