OpenAI Pone a GPT-5 en la Comparativa Entre la Inteligencia Artificial y el Trabajo Humano

El Futuro De La Ingeniería De Software: ¿Será La Inteligencia Artificial Su Próxima Evolución?

RESUMIR ARTÍCULO CON CHATGPT RESUMIR ARTÍCULO CON PERPLEXITY

La carrera por medir qué tan bien trabaja la IA frente a personas de carne y hueso ya tiene una nueva vara de medir. OpenAI ha presentado GDPval, un benchmark que compara informes creados por modelos con informes redactados por profesionales de múltiples sectores.

La idea es sencilla: evaluar tareas con impacto económico real y ver dónde está hoy la IA. El alcance actual de GDPval es parcial y se centra en un tipo de entrega muy concreto. Con todo, los primeros números ya marcan tendencia y apuntan a cambios prácticos en cómo tú y tu equipo trabajáis.

¿Qué es GDPval y por qué importa para medir IA frente a humanos?

GDPval es un benchmark de OpenAI que busca estimar cuán cerca están sus sistemas de superar a personas en trabajos con valor económico. El objetivo encaja con su misión de desarrollar AGI, pero aterrizado en tareas evaluables.

OpenAI introduces GDPval—a new metric that evaluates AI models based on economically relevant tasks from 44 professions, rather than just abstract tests.

Initial results show that modern models often match the quality of experts and can complete such tasks ~100× faster and more… pic.twitter.com/KCCIhtoLKm
— Chubby♨️ (@kimmonismus) September 25, 2025

Para empezar, GDPval se enfoca en las nueve industrias que más aportan al PIB de Estados Unidos, con ejemplos como sanidad, finanzas, manufactura y gobierno. No se limita a un único perfil, ya que abarca 44 profesiones distintas, desde ingenieros de software hasta enfermeras y periodistas.

Metodología de GDPval-v0 paso a paso

Define el encargo: crear un informe de investigación con una pauta concreta.
Solicita ese informe tanto a un profesional con experiencia como a un modelo de IA.
Pide a otros profesionales del área que comparen ambos informes y elijan el mejor.
Calcula la tasa de victorias de la IA frente a humanos en cada ocupación.
Promedia el resultado en las 44 profesiones para obtener el rendimiento global de GDPval.

Para que te hagas una idea, a banqueros de inversión se les propuso analizar la competencia en el sector de entregas de última milla. Luego compararon su propio informe con el generado por el modelo. Este tipo de evaluación ancla GDPval en escenarios con utilidad directa.

También te puede interesar:Si Aún no Activas Estas Funciones de ChatGPT-5, Estás Usando Solo el 20% de su Potencial

Resultados de GDPval: GPT-5 y Claude Opus 4.1 frente a expertos

En la primera medición, llamada GDPval-v0, el modelo GPT-5-high fue valorado como mejor o igual que expertos en el 40,6% de los casos. Por su parte, Claude Opus 4.1 alcanzó un 49% de victorias y empates. Estos números indican que, en una fracción notable de tareas de GDPval, la IA se acerca al nivel profesional.

OpenAI señala que el impulso de Claude puede deberse a su tendencia a generar gráficos atractivos, detalle que influye en la valoración. Con todo, GDPval deja claro que ambos sistemas ya compiten con solvencia en informes de investigación.

Modelo	Victorias/Empates frente a expertos	Nota relevante
GPT-4o	13,7% (hace ~15 meses)	Punto de partida para ver la mejora en GDPval
GPT-5-high	40,6%	Versión potenciada de GPT-5 en GDPval-v0
Claude Opus 4.1	49%	Posible ventaja por gráficos llamativos en GDPval

Evolución reciente medida por GDPval

Tejal Patwardhan, responsable de evaluaciones, destaca la velocidad de mejora: GPT-4o marcó un 13,7% de victorias y empates hace unos 15 meses, y GPT-5 casi triplica esa cifra en GDPval. Recalca que el avance debe confirmarse con más iteraciones del benchmark.

OpenAI considera significativo este progreso en GDPval, ya que sugiere que la IA no solo aprende rápido, sino que empieza a competir contra profesionales en contextos valiosos. Con todo, la empresa pide prudencia a la hora de extrapolar estos resultados.

Industrias y profesiones cubiertas por el benchmark GDPval

GDPval se centra en sectores con alta aportación al PIB de EEUU, incluyendo sanidad, finanzas, manufactura y gobierno. El objetivo es medir tareas con impacto económico directo y ver dónde la IA ya rinde de forma útil. El mapa completo de industrias evaluadas crecerá con futuras versiones.

Dentro de esas áreas, el test cubre 44 profesiones. Aquí tienes algunos ejemplos representativos de GDPval:

También te puede interesar:OpenAI anuncia GPT-4.5 y GPT-5: Unificación de modelos y nueva estrategia

Ingeniería de software y trabajo técnico.
Enfermería y tareas clínicas documentales.
Periodismo y elaboración de piezas informativas.
Banca de inversión y análisis sectoriales.

Limitaciones actuales del test GDPval y qué no mide todavía

GDPval-v0 evalúa la capacidad de producir informes de investigación. Eso es útil, pero representa una porción reducida del trabajo diario. Los resultados sirven como termómetro inicial y ayudan a ver en qué tareas concretas es conveniente apoyarte con la IA hoy mismo.

Incluso con buenos porcentajes en GDPval, OpenAI reconoce que sus modelos no van a reemplazar a los humanos de inmediato. El benchmark cubre una fracción limitada de las tareas reales y no incluye todavía flujos interactivos ni procesos largos con iteraciones y validaciones externas.

Para afirmar que la IA supera a las personas de forma general, OpenAI necesitará una versión más exhaustiva del test GDPval. En cualquier caso, el indicador actual ya aporta una señal clara de capacidad en informes.

Planes de OpenAI para ampliar GDPval y evaluar flujos de trabajo reales

OpenAI planea diseñar pruebas más sólidas que abarquen más industrias y flujos de trabajo interactivos, no solo entregables finales. La intención es que las siguientes versiones de GDPval midan no solo el resultado, sino el proceso de trabajo y la colaboración con personas.

ChatGPT Regala estas 5 Funciones Gratuitas, pero casi Nadie las Aprovecha como Debería

Con todo, la empresa ve a GDPval como una base sobre la que iterar. Si el benchmark incorpora más etapas del trabajo real, puedes interpretar con más precisión dónde delegar y cómo integrar la IA en tu rutina.

Qué significa GDPval para tu día a día profesional

El economista jefe de OpenAI, Dr. Aaron Chatterji, sugiere que los resultados de GDPval ya permiten a profesionales dedicar más tiempo a tareas significativas. Cuando el modelo mejora en ciertas partes del flujo, tú puedes delegar esa porción y concentrarte en lo que aporta más valor.

Piensa en preparar un informe de mercado: la IA puede crear el primer borrador, proponer estructura y generar gráficos iniciales. Tú decides el enfoque, revisas fuentes y aportas contexto, lo que encaja muy bien con lo que GDPval está señalando.

Ejemplos prácticos de delegación asistida por IA según GDPval

Sanidad: redactar resúmenes clínicos, preparar plantillas y checklists, y organizar referencias.
Finanzas: esbozar análisis competitivos, comparar métricas clave y generar gráficos iniciales.
Periodismo: crear escaletas, estructurar piezas y ofrecer variantes de titulares y entradillas.
Ingeniería: documentar cambios, resumir propuestas técnicas y preparar anexos con evidencias.

En todos los casos, GDPval apunta a un patrón: la IA acelera lo repetitivo y lo pesado, y tú te quedas con la parte crítica y de juicio. Conviene validar datos y verificar que el informe final refleje la realidad del proyecto.

Comparativa con otros benchmarks de IA y por qué GDPval importa

En Silicon Valley ya existen pruebas populares, como AIME 2025 (retos matemáticos) y GPQA Diamond (preguntas científicas a nivel de doctorado). Muchos modelos se están acercando a sus límites, lo que ha llevado a investigadores a pedir tests que midan tareas del mundo real. Ahí es donde GDPval puede ganar peso.

Frente a esos benchmarks más académicos, GDPval intenta capturar valor económico y calidad profesional en informes de investigación. Se queda en una porción del trabajo. Con todo, su enfoque práctico lo convierte en una referencia interesante para empresas y equipos que quieren medir impacto.

Cómo interpretar la “tasa de victorias” de GDPval sin caer en malentendidos

La métrica central de GDPval es la tasa de victorias promedio del modelo frente a informes humanos en 44 ocupaciones. Ese porcentaje no equivale a “automatización del empleo”, porque solo evalúa una parte de la actividad profesional y en un formato concreto.

Úsala como guía para decidir qué tareas puedes derivar, no para estimar sustitución total. Si la tasa sube de forma sostenida en futuras iteraciones de GDPval, tendrá sentido escalar la integración de la IA en más procesos y medir su impacto en coste, calidad y tiempos.

Mirando el conjunto, GDPval muestra que GPT-5 y Claude Opus 4.1 ya rinden a nivel experto en una parte relevante de informes, con un 40,6% y un 49% de resultados a favor respectivamente. El propio test GDPval es limitado y necesita versiones más amplias antes de hablar de superación general de humanos.

GPT-5, OpenAI

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net