La carrera por medir qué tan bien trabaja la IA frente a personas de carne y hueso ya tiene una nueva vara de medir. OpenAI ha presentado GDPval, un benchmark que compara informes creados por modelos con informes redactados por profesionales de múltiples sectores.
La idea es sencilla: evaluar tareas con impacto económico real y ver dónde está hoy la IA. El alcance actual de GDPval es parcial y se centra en un tipo de entrega muy concreto. Con todo, los primeros números ya marcan tendencia y apuntan a cambios prácticos en cómo tú y tu equipo trabajáis.
GDPval es un benchmark de OpenAI que busca estimar cuán cerca están sus sistemas de superar a personas en trabajos con valor económico. El objetivo encaja con su misión de desarrollar AGI, pero aterrizado en tareas evaluables.
Para empezar, GDPval se enfoca en las nueve industrias que más aportan al PIB de Estados Unidos, con ejemplos como sanidad, finanzas, manufactura y gobierno. No se limita a un único perfil, ya que abarca 44 profesiones distintas, desde ingenieros de software hasta enfermeras y periodistas.
Para que te hagas una idea, a banqueros de inversión se les propuso analizar la competencia en el sector de entregas de última milla. Luego compararon su propio informe con el generado por el modelo. Este tipo de evaluación ancla GDPval en escenarios con utilidad directa.
También te puede interesar:OpenAI anuncia GPT-4.5 y GPT-5: Unificación de modelos y nueva estrategiaEn la primera medición, llamada GDPval-v0, el modelo GPT-5-high fue valorado como mejor o igual que expertos en el 40,6% de los casos. Por su parte, Claude Opus 4.1 alcanzó un 49% de victorias y empates. Estos números indican que, en una fracción notable de tareas de GDPval, la IA se acerca al nivel profesional.
OpenAI señala que el impulso de Claude puede deberse a su tendencia a generar gráficos atractivos, detalle que influye en la valoración. Con todo, GDPval deja claro que ambos sistemas ya compiten con solvencia en informes de investigación.
Modelo | Victorias/Empates frente a expertos | Nota relevante |
---|---|---|
GPT-4o | 13,7% (hace ~15 meses) | Punto de partida para ver la mejora en GDPval |
GPT-5-high | 40,6% | Versión potenciada de GPT-5 en GDPval-v0 |
Claude Opus 4.1 | 49% | Posible ventaja por gráficos llamativos en GDPval |
Tejal Patwardhan, responsable de evaluaciones, destaca la velocidad de mejora: GPT-4o marcó un 13,7% de victorias y empates hace unos 15 meses, y GPT-5 casi triplica esa cifra en GDPval. Recalca que el avance debe confirmarse con más iteraciones del benchmark.
OpenAI considera significativo este progreso en GDPval, ya que sugiere que la IA no solo aprende rápido, sino que empieza a competir contra profesionales en contextos valiosos. Con todo, la empresa pide prudencia a la hora de extrapolar estos resultados.
GDPval se centra en sectores con alta aportación al PIB de EEUU, incluyendo sanidad, finanzas, manufactura y gobierno. El objetivo es medir tareas con impacto económico directo y ver dónde la IA ya rinde de forma útil. El mapa completo de industrias evaluadas crecerá con futuras versiones.
Dentro de esas áreas, el test cubre 44 profesiones. Aquí tienes algunos ejemplos representativos de GDPval:
También te puede interesar:Microsoft se prepara para el modelo GPT-5 de OpenAIGDPval-v0 evalúa la capacidad de producir informes de investigación. Eso es útil, pero representa una porción reducida del trabajo diario. Los resultados sirven como termómetro inicial y ayudan a ver en qué tareas concretas es conveniente apoyarte con la IA hoy mismo.
Incluso con buenos porcentajes en GDPval, OpenAI reconoce que sus modelos no van a reemplazar a los humanos de inmediato. El benchmark cubre una fracción limitada de las tareas reales y no incluye todavía flujos interactivos ni procesos largos con iteraciones y validaciones externas.
Para afirmar que la IA supera a las personas de forma general, OpenAI necesitará una versión más exhaustiva del test GDPval. En cualquier caso, el indicador actual ya aporta una señal clara de capacidad en informes.
OpenAI planea diseñar pruebas más sólidas que abarquen más industrias y flujos de trabajo interactivos, no solo entregables finales. La intención es que las siguientes versiones de GDPval midan no solo el resultado, sino el proceso de trabajo y la colaboración con personas.
Con todo, la empresa ve a GDPval como una base sobre la que iterar. Si el benchmark incorpora más etapas del trabajo real, puedes interpretar con más precisión dónde delegar y cómo integrar la IA en tu rutina.
El economista jefe de OpenAI, Dr. Aaron Chatterji, sugiere que los resultados de GDPval ya permiten a profesionales dedicar más tiempo a tareas significativas. Cuando el modelo mejora en ciertas partes del flujo, tú puedes delegar esa porción y concentrarte en lo que aporta más valor.
También te puede interesar:La nueva IA de Anthropic chantajea a ingenieros para no ser apagadaPiensa en preparar un informe de mercado: la IA puede crear el primer borrador, proponer estructura y generar gráficos iniciales. Tú decides el enfoque, revisas fuentes y aportas contexto, lo que encaja muy bien con lo que GDPval está señalando.
En todos los casos, GDPval apunta a un patrón: la IA acelera lo repetitivo y lo pesado, y tú te quedas con la parte crítica y de juicio. Conviene validar datos y verificar que el informe final refleje la realidad del proyecto.
En Silicon Valley ya existen pruebas populares, como AIME 2025 (retos matemáticos) y GPQA Diamond (preguntas científicas a nivel de doctorado). Muchos modelos se están acercando a sus límites, lo que ha llevado a investigadores a pedir tests que midan tareas del mundo real. Ahí es donde GDPval puede ganar peso.
Frente a esos benchmarks más académicos, GDPval intenta capturar valor económico y calidad profesional en informes de investigación. Se queda en una porción del trabajo. Con todo, su enfoque práctico lo convierte en una referencia interesante para empresas y equipos que quieren medir impacto.
La métrica central de GDPval es la tasa de victorias promedio del modelo frente a informes humanos en 44 ocupaciones. Ese porcentaje no equivale a “automatización del empleo”, porque solo evalúa una parte de la actividad profesional y en un formato concreto.
Úsala como guía para decidir qué tareas puedes derivar, no para estimar sustitución total. Si la tasa sube de forma sostenida en futuras iteraciones de GDPval, tendrá sentido escalar la integración de la IA en más procesos y medir su impacto en coste, calidad y tiempos.
También te puede interesar:Nuevas Medidas en Claude de Anthropic para Finalizar Conversaciones Dañinas o AbusivasMirando el conjunto, GDPval muestra que GPT-5 y Claude Opus 4.1 ya rinden a nivel experto en una parte relevante de informes, con un 40,6% y un 49% de resultados a favor respectivamente. El propio test GDPval es limitado y necesita versiones más amplias antes de hablar de superación general de humanos.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.