Pokémon Azul para Game Boy, un clásico de hace tres décadas hoy funciona como entorno de pruebas para modelos de IA de empresas como Anthropic, OpenAI y Google. La clave es simple de explicar y difícil de ejecutar: si una IA puede superar Pokémon, demuestra un mecanismo de planificación más parecido al que necesita en tareas del mundo real.
El proyecto ClaudePlaysPokémon, transmitido en Twitch, abrió la puerta. A partir de esa idea aparecieron iniciativas como GPT_Plays_Pokémon y Gemini_Plays_Pokémon. Y, sobre todo, instaló una pregunta central: ¿qué mide realmente una partida larga cuando el jugador no es humano?

Según David Hershey, director de IA aplicada en Anthropic, Pokémon Azul ofrece una forma cuantitativa y sistemática de medir el progreso de un modelo de IA.
Porque aquí no alcanza con “acertar”. A diferencia de Pong, un juego más simple y repetitivo, Pokémon propone un desafío abierto. La IA debe explorar, resolver laberintos, elegir combates, decidir si entrena o captura, y sostener objetivos a largo plazo sin perder el hilo.
En términos caseros, Pokémon funciona como una casa grande con llaves, puertas y horarios: si no recuerdas qué puerta abriste, qué llave guardaste y qué habitación te falta, terminas dando vueltas. La IA, en ese sentido, no “juega” como entretenimiento. Se enfrenta a un cableado de decisiones encadenadas donde cada paso afecta el siguiente.
Y ahí aparece otra pieza clave: la memoria. En el caso de Claude, Anthropic implementó un sistema de memoria (un “cuaderno interno” de hechos útiles) para que el modelo pueda recordar detalles aprendidos durante la partida. Eso es central para mantener coherencia en sesiones largas y, por extensión, en conversaciones prolongadas con usuarios.

También es un interruptor conceptual para evaluar progreso: no solo importa si gana, sino cómo se recupera cuando se equivoca.
Los investigadores sostienen que estas pruebas pueden ser más útiles que varios benchmarks clásicos. La razón es práctica: un benchmark suele medir un resultado puntual. Pokémon, en cambio, deja ver el razonamiento en movimiento. Permite observar si la IA planifica, corrige, insiste donde conviene y cambia de estrategia cuando el entorno la obliga.
Además, el diseño del juego empuja a balancear tiempo y recursos. Hay que decidir entre entrenar al equipo actual o capturar nuevas criaturas, gestionar inventario y elegir rutas. Ese equilibrio, que cualquier jugador reconoce, se vuelve un termómetro para medir cómo una IA maneja objetivos múltiples con restricciones simultáneas.

Por eso los equipos también mejoran sus sistemas de soporte con frameworks (estructuras de software) especializados, capaces de gestionar interacciones complejas. No es solo el modelo: es todo el engranaje alrededor para que el experimento sea consistente y comparable.
OpenAI y Google ya ampliaron el enfoque a secuelas de Pokémon y lo usan como evaluación continua. Y, en paralelo, Kaggle —filial de Google— lanzó en 2025 Game Arena, una plataforma donde distintos modelos compiten en torneos de juegos clásicos. En su primer campeonato de ajedrez, el modelo o3 de OpenAI resultó ganador frente a otros participantes.
El uso de juegos para medir IA no es nuevo: AlphaGo, de Google DeepMind, sorprendió hace una década al vencer a campeones humanos en Go. Ajedrez, póker y Minecraft también fueron laboratorios. La oportunidad ahora es distinta: Pokémon reúne exploración, acertijos, combate por turnos, inventario y objetivos a largo plazo en un solo mundo coherente. Para desarrolladores como Joel Zhang y Jonathan Verron, por eso es “el juego perfecto”.
En tiempos donde se discute si la IA vive una burbuja de expectativas, estas pruebas tienen un valor concreto: muestran qué sabe hacer hoy y qué todavía no. Y mientras figuras como Jensen Huang, CEO de Nvidia, señalan que la inversión apenas está empezando, Pokémon recuerda una idea tranquilizadora: el progreso real se construye como una partida larga, paso a paso, con memoria y paciencia.

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.