ChatGPTOpenAICharacter.AISoraAI ModeSlackClaudeMetaAmandaworkslopIA generativaAgentes IAOpera NeonNothingGoogle Drive

OpenAI Pone a GPT-5 en la Comparativa Entre la Inteligencia Artificial y el Trabajo Humano

 | septiembre 26, 2025 06:23

La carrera por medir qué tan bien trabaja la IA frente a personas de carne y hueso ya tiene una nueva vara de medir. OpenAI ha presentado GDPval, un benchmark que compara informes creados por modelos con informes redactados por profesionales de múltiples sectores.

La idea es sencilla: evaluar tareas con impacto económico real y ver dónde está hoy la IA. El alcance actual de GDPval es parcial y se centra en un tipo de entrega muy concreto. Con todo, los primeros números ya marcan tendencia y apuntan a cambios prácticos en cómo tú y tu equipo trabajáis.

¿Qué es GDPval y por qué importa para medir IA frente a humanos?

GDPval es un benchmark de OpenAI que busca estimar cuán cerca están sus sistemas de superar a personas en trabajos con valor económico. El objetivo encaja con su misión de desarrollar AGI, pero aterrizado en tareas evaluables.

Para empezar, GDPval se enfoca en las nueve industrias que más aportan al PIB de Estados Unidos, con ejemplos como sanidad, finanzas, manufactura y gobierno. No se limita a un único perfil, ya que abarca 44 profesiones distintas, desde ingenieros de software hasta enfermeras y periodistas.

Metodología de GDPval-v0 paso a paso

  1. Define el encargo: crear un informe de investigación con una pauta concreta.
  2. Solicita ese informe tanto a un profesional con experiencia como a un modelo de IA.
  3. Pide a otros profesionales del área que comparen ambos informes y elijan el mejor.
  4. Calcula la tasa de victorias de la IA frente a humanos en cada ocupación.
  5. Promedia el resultado en las 44 profesiones para obtener el rendimiento global de GDPval.

Para que te hagas una idea, a banqueros de inversión se les propuso analizar la competencia en el sector de entregas de última milla. Luego compararon su propio informe con el generado por el modelo. Este tipo de evaluación ancla GDPval en escenarios con utilidad directa.

También te puede interesar:OpenAI anuncia GPT-4.5 y GPT-5: Unificación de modelos y nueva estrategia

Resultados de GDPval: GPT-5 y Claude Opus 4.1 frente a expertos

En la primera medición, llamada GDPval-v0, el modelo GPT-5-high fue valorado como mejor o igual que expertos en el 40,6% de los casos. Por su parte, Claude Opus 4.1 alcanzó un 49% de victorias y empates. Estos números indican que, en una fracción notable de tareas de GDPval, la IA se acerca al nivel profesional.

OpenAI señala que el impulso de Claude puede deberse a su tendencia a generar gráficos atractivos, detalle que influye en la valoración. Con todo, GDPval deja claro que ambos sistemas ya compiten con solvencia en informes de investigación.

ModeloVictorias/Empates frente a expertosNota relevante
GPT-4o13,7% (hace ~15 meses)Punto de partida para ver la mejora en GDPval
GPT-5-high40,6%Versión potenciada de GPT-5 en GDPval-v0
Claude Opus 4.149%Posible ventaja por gráficos llamativos en GDPval

Evolución reciente medida por GDPval

Tejal Patwardhan, responsable de evaluaciones, destaca la velocidad de mejora: GPT-4o marcó un 13,7% de victorias y empates hace unos 15 meses, y GPT-5 casi triplica esa cifra en GDPval. Recalca que el avance debe confirmarse con más iteraciones del benchmark.

OpenAI considera significativo este progreso en GDPval, ya que sugiere que la IA no solo aprende rápido, sino que empieza a competir contra profesionales en contextos valiosos. Con todo, la empresa pide prudencia a la hora de extrapolar estos resultados.

Industrias y profesiones cubiertas por el benchmark GDPval

GDPval se centra en sectores con alta aportación al PIB de EEUU, incluyendo sanidad, finanzas, manufactura y gobierno. El objetivo es medir tareas con impacto económico directo y ver dónde la IA ya rinde de forma útil. El mapa completo de industrias evaluadas crecerá con futuras versiones.

GPT-5

Dentro de esas áreas, el test cubre 44 profesiones. Aquí tienes algunos ejemplos representativos de GDPval:

También te puede interesar:Microsoft se prepara para el modelo GPT-5 de OpenAI
  • Ingeniería de software y trabajo técnico.
  • Enfermería y tareas clínicas documentales.
  • Periodismo y elaboración de piezas informativas.
  • Banca de inversión y análisis sectoriales.

Limitaciones actuales del test GDPval y qué no mide todavía

GDPval-v0 evalúa la capacidad de producir informes de investigación. Eso es útil, pero representa una porción reducida del trabajo diario. Los resultados sirven como termómetro inicial y ayudan a ver en qué tareas concretas es conveniente apoyarte con la IA hoy mismo.

Resultados de GDPval

Incluso con buenos porcentajes en GDPval, OpenAI reconoce que sus modelos no van a reemplazar a los humanos de inmediato. El benchmark cubre una fracción limitada de las tareas reales y no incluye todavía flujos interactivos ni procesos largos con iteraciones y validaciones externas.

Para afirmar que la IA supera a las personas de forma general, OpenAI necesitará una versión más exhaustiva del test GDPval. En cualquier caso, el indicador actual ya aporta una señal clara de capacidad en informes.

Planes de OpenAI para ampliar GDPval y evaluar flujos de trabajo reales

OpenAI planea diseñar pruebas más sólidas que abarquen más industrias y flujos de trabajo interactivos, no solo entregables finales. La intención es que las siguientes versiones de GDPval midan no solo el resultado, sino el proceso de trabajo y la colaboración con personas.

ChatGPT Regala estas 5 Funciones Gratuitas, pero casi Nadie las Aprovecha como Debería

Con todo, la empresa ve a GDPval como una base sobre la que iterar. Si el benchmark incorpora más etapas del trabajo real, puedes interpretar con más precisión dónde delegar y cómo integrar la IA en tu rutina.

Qué significa GDPval para tu día a día profesional

El economista jefe de OpenAI, Dr. Aaron Chatterji, sugiere que los resultados de GDPval ya permiten a profesionales dedicar más tiempo a tareas significativas. Cuando el modelo mejora en ciertas partes del flujo, tú puedes delegar esa porción y concentrarte en lo que aporta más valor.

También te puede interesar:La nueva IA de Anthropic chantajea a ingenieros para no ser apagada

Piensa en preparar un informe de mercado: la IA puede crear el primer borrador, proponer estructura y generar gráficos iniciales. Tú decides el enfoque, revisas fuentes y aportas contexto, lo que encaja muy bien con lo que GDPval está señalando.

Ejemplos prácticos de delegación asistida por IA según GDPval

  • Sanidad: redactar resúmenes clínicos, preparar plantillas y checklists, y organizar referencias.
  • Finanzas: esbozar análisis competitivos, comparar métricas clave y generar gráficos iniciales.
  • Periodismo: crear escaletas, estructurar piezas y ofrecer variantes de titulares y entradillas.
  • Ingeniería: documentar cambios, resumir propuestas técnicas y preparar anexos con evidencias.

En todos los casos, GDPval apunta a un patrón: la IA acelera lo repetitivo y lo pesado, y tú te quedas con la parte crítica y de juicio. Conviene validar datos y verificar que el informe final refleje la realidad del proyecto.

Comparativa con otros benchmarks de IA y por qué GDPval importa

En Silicon Valley ya existen pruebas populares, como AIME 2025 (retos matemáticos) y GPQA Diamond (preguntas científicas a nivel de doctorado). Muchos modelos se están acercando a sus límites, lo que ha llevado a investigadores a pedir tests que midan tareas del mundo real. Ahí es donde GDPval puede ganar peso.

Frente a esos benchmarks más académicos, GDPval intenta capturar valor económico y calidad profesional en informes de investigación. Se queda en una porción del trabajo. Con todo, su enfoque práctico lo convierte en una referencia interesante para empresas y equipos que quieren medir impacto.

Cómo interpretar la “tasa de victorias” de GDPval sin caer en malentendidos

La métrica central de GDPval es la tasa de victorias promedio del modelo frente a informes humanos en 44 ocupaciones. Ese porcentaje no equivale a “automatización del empleo”, porque solo evalúa una parte de la actividad profesional y en un formato concreto.

Úsala como guía para decidir qué tareas puedes derivar, no para estimar sustitución total. Si la tasa sube de forma sostenida en futuras iteraciones de GDPval, tendrá sentido escalar la integración de la IA en más procesos y medir su impacto en coste, calidad y tiempos.

También te puede interesar:Nuevas Medidas en Claude de Anthropic para Finalizar Conversaciones Dañinas o Abusivas

Mirando el conjunto, GDPval muestra que GPT-5 y Claude Opus 4.1 ya rinden a nivel experto en una parte relevante de informes, con un 40,6% y un 49% de resultados a favor respectivamente. El propio test GDPval es limitado y necesita versiones más amplias antes de hablar de superación general de humanos.

Copyright © gptzone.net

La Newsletter Diaria Sobre Inteligencia Artificial. Además: Portal de Noticias, Tutoriales, Tips y Trucos de ChatGpt, Openai e Inteligencia Artificial.

Nuestra web está alojada en:

hosting raiola

Suscríbete a nuestra Newsletter Diaria sobre IA

 

Suscríbete a GptZone y recibe cada día TOTALMENTE GRATIS:

 

  • 📰 Noticias Exclusivas de Inteligencia Artificial.
  • 🤖 Prompts Creativos y prácticos.
  • 🎥 Videos Inspiradores sobre IA.
  • 🛠️ Apps Recomendadas para revolucionar tu día a día.

Te has suscrito Satisfactoriamente!

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram