Inicio Curiosidades IA La IA Se Estrella en Humanity’s Last Exam: Menos del 50 %...

Curiosidades IA

La IA Se Estrella en Humanity’s Last Exam: Menos del 50 % Frente al 90 % Humano

Por

01/01/1970

¿Alguna vez sentiste que una respuesta “suena” segura, pero no sabés si está bien? Esa duda aparece con una receta, con un trámite y, cada vez más, con lo que contestan ChatGPT, Gemini, Claude o DeepSeek cuando les pedís una explicación compleja.

Ahora, un hallazgo publicado en Nature puso esa sensación bajo una lupa incómoda. El trabajo presenta Humanity’s Last Exam, el “Último Examen de la Humanidad”, una prueba diseñada para medir cuánto se acercan los grandes modelos de lenguaje a un conocimiento experto real.

En concreto, el examen fue creado por investigadores del Center for AI Safety y de Scale AI y se presentó en enero de 2025. Y su mecanismo es claro: comparar el rendimiento de modelos como GPT-4o, Gemini, Claude o DeepSeek frente a preguntas cerradas, verificables y de dificultad equivalente a un doctorado.

El examen tiene 2.500 preguntas y cubre más de 100 materias, desde mitología griega hasta física avanzada sobre fuerzas y movimiento en sistemas sin fricción. Además, más de 1.000 expertos de 500 instituciones en 50 países participaron en su elaboración.

Y ahí aparece la pieza clave: las preguntas no podían resolverse con una búsqueda simple en internet. Los diseñadores descartaron cualquier ítem que estuviera “en la red”, como si hubieran desconectado el cableado que alimenta respuestas fáciles.

También eliminaron las preguntas que los modelos ya respondían bien en pruebas preliminares. Es decir, el examen se fue ajustando como un tornillo: si la IA lo resolvía sin esfuerzo, esa pregunta no servía para medir límites.

El recorrido fue quirúrgico. De unas 70.000 preguntas propuestas, solo 13.000 sobrevivieron un primer filtro automático que buscaba, justamente, hacer tropezar a los sistemas. Luego, una revisión humana redujo el set al núcleo definitivo de 2.500.

¿Cómo funciona este “interruptor” contra las respuestas fáciles?

La analogía doméstica ayuda a entenderlo. Imaginen que evaluar a una IA fuera como revisar una instalación eléctrica en una casa: si probás solo el velador del living, puede parecer que todo funciona. Pero el Último Examen obliga a encender muchos circuitos a la vez, incluidos los que casi no usás.

En ese esquema, un benchmark (prueba estándar de comparación) es como un tablero de control. Humanity’s Last Exam intenta ser un tablero más exigente porque no mide tareas rutinarias, sino si el sistema puede sostener una respuesta cuando el camino corto —la búsqueda rápida— está bloqueado.

Y el resultado revela un terreno intermedio. Cuando se lanzó inicialmente, OpenAI reportó a su modelo o1 como el mejor clasificado, con apenas un 8,3% de aciertos. Era una cifra baja, pero funcionó como señal: el examen no estaba hecho para lucirse, sino para marcar límites.

Los propios investigadores anticiparon que el ritmo de mejora podía empujar a los modelos por encima del 50% antes de terminar 2025. Según el artículo, esa previsión no era descabellada.

Qué dicen los números y por qué no equivalen a AGI

Al 12 de febrero de 2026, la mejor puntuación la obtuvo Gemini 3 Deep Think con 48,4% de aciertos. El dato es fuerte, pero contrasta con el rendimiento de expertos humanos, que rondan el 90% en sus respectivos campos.

La clave interpretativa está en lo que este examen sí mide y lo que no. Los autores advierten que una alta precisión demostraría desempeño de nivel experto en preguntas cerradas y verificables, incluso en conocimiento científico de punta. Pero subrayan que eso, por sí solo, no implica investigación autónoma ni confirma la llegada de la AGI (inteligencia artificial general, una mente flexible “para todo”).

En la práctica, para el usuario esto se traduce en una oportunidad y una cautela. Oportunidad, porque estos sistemas ya pueden ayudar a estudiar, resumir bibliografía o destrabar problemas técnicos. Cautela, porque una respuesta convincente todavía puede fallar en detalles finos, como un engranaje que gira pero no termina de acoplar.

El mensaje final es menos de ciencia ficción y más de vida diaria: la IA está aprendiendo a pasar exámenes cada vez más difíciles, pero todavía no tiene las llaves de toda la casa.

Sofía Sicilia

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.

La IA Se Estrella en Humanity’s Last Exam: Menos del 50 % Frente al 90 % Humano

¿Cómo funciona este “interruptor” contra las respuestas fáciles?

Qué dicen los números y por qué no equivalen a AGI

DEJA UNA RESPUESTA Cancelar respuesta

OTRAS NOTICIAS

Reddit Demanda a Anthropic por Uso no Autorizado de su Contenido para Entrenar a...

Fiverr Deja Atrás su Modelo Freelance y Pone Todo en la IA tras Despedir...

OpenAI Estrena los Chats en Grupo de ChatGPT y Así es Como Funcionan

El nuevo Claude Sonnet 4 promete más memoria que GPT-5, pero con precios más...

TE INTERESA

EE.UU. Elige a OpenAI, Google y Anthropic Como Proveedores de IA...

Incluso más noticias

Lenovo Demuestra en el MWC Cómo la IA Puede Organizar Tu...

Anthropic Desafía al Pentágono y se Dispara: Claude Llega al Número...

OpenAI en el Punto de Mira: la Demanda de Musk por...

CATEGORÍA POPULAR

DOMINA LA IA EN 3 MINUTOS AL DÍA (GRATIS)

Suscríbete a nuestra Newsletter Diaria sobre IA:

You have Successfully Subscribed!

Usuarios más Activos de ChatGPT en el Ojo del Huracán tras...

Sony Cruza una Línea Sagrada: Permitir que la IA Complete el...

El Éxito de la IA en Microsoft Tiene un Ganador Indiscutible:...