¿Alguna vez sentiste que una respuesta “suena” segura, pero no sabés si está bien? Esa duda aparece con una receta, con un trámite y, cada vez más, con lo que contestan ChatGPT, Gemini, Claude o DeepSeek cuando les pedís una explicación compleja.

Ahora, un hallazgo publicado en Nature puso esa sensación bajo una lupa incómoda. El trabajo presenta Humanity’s Last Exam, el “Último Examen de la Humanidad”, una prueba diseñada para medir cuánto se acercan los grandes modelos de lenguaje a un conocimiento experto real.

En concreto, el examen fue creado por investigadores del Center for AI Safety y de Scale AI y se presentó en enero de 2025. Y su mecanismo es claro: comparar el rendimiento de modelos como GPT-4o, Gemini, Claude o DeepSeek frente a preguntas cerradas, verificables y de dificultad equivalente a un doctorado.

El examen tiene 2.500 preguntas y cubre más de 100 materias, desde mitología griega hasta física avanzada sobre fuerzas y movimiento en sistemas sin fricción. Además, más de 1.000 expertos de 500 instituciones en 50 países participaron en su elaboración.

Y ahí aparece la pieza clave: las preguntas no podían resolverse con una búsqueda simple en internet. Los diseñadores descartaron cualquier ítem que estuviera “en la red”, como si hubieran desconectado el cableado que alimenta respuestas fáciles.

También eliminaron las preguntas que los modelos ya respondían bien en pruebas preliminares. Es decir, el examen se fue ajustando como un tornillo: si la IA lo resolvía sin esfuerzo, esa pregunta no servía para medir límites.

El recorrido fue quirúrgico. De unas 70.000 preguntas propuestas, solo 13.000 sobrevivieron un primer filtro automático que buscaba, justamente, hacer tropezar a los sistemas. Luego, una revisión humana redujo el set al núcleo definitivo de 2.500.

¿Cómo funciona este “interruptor” contra las respuestas fáciles?

La analogía doméstica ayuda a entenderlo. Imaginen que evaluar a una IA fuera como revisar una instalación eléctrica en una casa: si probás solo el velador del living, puede parecer que todo funciona. Pero el Último Examen obliga a encender muchos circuitos a la vez, incluidos los que casi no usás.

En ese esquema, un benchmark (prueba estándar de comparación) es como un tablero de control. Humanity’s Last Exam intenta ser un tablero más exigente porque no mide tareas rutinarias, sino si el sistema puede sostener una respuesta cuando el camino corto —la búsqueda rápida— está bloqueado.

Y el resultado revela un terreno intermedio. Cuando se lanzó inicialmente, OpenAI reportó a su modelo o1 como el mejor clasificado, con apenas un 8,3% de aciertos. Era una cifra baja, pero funcionó como señal: el examen no estaba hecho para lucirse, sino para marcar límites.

Los propios investigadores anticiparon que el ritmo de mejora podía empujar a los modelos por encima del 50% antes de terminar 2025. Según el artículo, esa previsión no era descabellada.

Qué dicen los números y por qué no equivalen a AGI

Al 12 de febrero de 2026, la mejor puntuación la obtuvo Gemini 3 Deep Think con 48,4% de aciertos. El dato es fuerte, pero contrasta con el rendimiento de expertos humanos, que rondan el 90% en sus respectivos campos.

La clave interpretativa está en lo que este examen sí mide y lo que no. Los autores advierten que una alta precisión demostraría desempeño de nivel experto en preguntas cerradas y verificables, incluso en conocimiento científico de punta. Pero subrayan que eso, por sí solo, no implica investigación autónoma ni confirma la llegada de la AGI (inteligencia artificial general, una mente flexible “para todo”).

En la práctica, para el usuario esto se traduce en una oportunidad y una cautela. Oportunidad, porque estos sistemas ya pueden ayudar a estudiar, resumir bibliografía o destrabar problemas técnicos. Cautela, porque una respuesta convincente todavía puede fallar en detalles finos, como un engranaje que gira pero no termina de acoplar.

El mensaje final es menos de ciencia ficción y más de vida diaria: la IA está aprendiendo a pasar exámenes cada vez más difíciles, pero todavía no tiene las llaves de toda la casa.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí